Statistik Software – R Statistik Software

Statistik Software R ist eine Software und eine Programmiersprache für die statistische Auswertung von Daten. R ist freie Software. R ist für Windows, Linux, Mac OS X verfügbar.

Statistik Software R download und Installation

Download

Die Files, die benötigt werden, um R unter Windows, Linux oder MacOS X zu installieren, können von CRAN (Comprehensive R Archive Network; http://cran. r-project.org/) oder einem der Mirrors (vgl. http://cran.r-project.org/mirrors. html) heruntergeladen werden.

Windows

Der Windows Installer findet sich unter http://cran.r-project.org/bin/ windows/base/. Weitere Informationen zu Installation, Update und Deinstallation unter Windows finden sich in den FAQs fur Windows unter http://cran. r-project.org/bin/windows/base/rw-FAQ.html.

MacOS X

Die notwendigen Dateien fur MacOS X sowie eine kurze Anleitung finden sich unter http://cran.r-project.org/bin/macosx/. Ahnlich wie im Fall von Windows gibt es auch fur MacOS X eine FAQ-Seite ( http://cran.r-project. org/bin/macosx/RMacOSX-FAQ.html), auf der zusätzliche Informationen zu finden sind.

Linux

Es stehen Debian (http://cran.r-project.org/bin/linux/debian/) und Ubuntu (http://cran.r-project.org/bin/linux/ubuntu/) Pakete sowie Dateien fur Redhat (http://cran.r-project.org/bin/linux/redhat/) und OpenSUSE (http//cran.r-project.org/bin/linux/suse/) zur Verfugung. Auf den Seiten von Debian, Ubuntu und OpenSUSE finden sich auch kurze Anleitungen zur Installation.

Die Dokumentation zur Installation von R findet sich in dem Manual “R Installation and Administration” [R Development Core Team, 2011], welches unter http://cran.r-project.org/manuals.html als HTML- und pdf-Version zur Verfugung gestellt wird. Darin finden sich u.a. Informationen dazu, wie R unter der Verwendung der Quelldateien auf verschiedenen Systemen installiert werden kann.

Statistik Software R Installation

Statistik Software R ergänzende Pakete

Installation von Erweiterungspaketen

Nach dem Start von R kann die Installation von Erweiterungspaketen in Windows über die Menuleiste der GUI vorgenommen werden. Genauer ist dies über den Menüpunkt ¨ “Pakete” und dort den Unterpunkt “Installiere Paket(e) …” möglich.

Neben dieser Möglichkeit gibt es generell die Möglichkeit, die R Funktionen available.packages, install.packages, update.packages, download.packages, old.packages, new.packages, installed.packages und remove.packages zu verwenden. Mit diesen ist es möglich, festzustellen, welche Pakete es gibt, diese zu installieren, upzudaten oder auch deinstallieren; zum Beispiel

> ## Installation des Paketes „MKmisc“
> install.packages(„MKmisc“, repos = „http://cran.at.r-project.org“)
> ## Entfernen des Paketes „MKmisc“
> remove.packages(„MKmisc“)

Es ist auch möglich, Pakete mittels Kommandozeilenbefehlen von außerhalb von R aus zu installieren. Weitere Einzelheiten dazu finden sich im Manual “R Installation and Administration”; vgl. http://cran.at.r-project.org/manuals.html. Die in einer Bibliothek (library) installierten Pakete lassen sich mit Hilfe der Funktion library feststellen und dann auch laden.

> ## installierte Pakete > library() >
## Lade Paket „MKmisc“
> library(MKmisc)

Ein Uberblick über ein Paket läßt sich ebenfalls mittels der Funktion library gewinnen; z.B.

> ## Uberblick ¨uber Paket „MKmisc“ ¨
> library(help = MKmisc)

Die grundlegenden Informationen eines Paketes sind in der sog. DESCRIPTION-Datei enthalten, die es fur jedes Paket gibt. Deren Inhalt läßt sich auch von R aus mittels der Funktion packageDescription inspizieren; z.B.

> ## Das „base“ Paket
> packageDescription(„base“)

Statistik Software R Hilfe

> ?help > help()
> ?help.search
> ?help.start

Zum Beispiel

> ?exp
> ??exp

Grundrechenarten mit R

> ## Addition
> 1+1 [1] 2

> ## Subtraktion
> 2-1
[1] 1

> ## Multiplikation
> 2*2
[1] 4

> ## Division
> 3/2
[1] 1.5

> ## Potenzieren
> 2^3
[1] 8

> ## Division mit Rest („modulo“)
> 4 %% 2
[1] 0

Berechnungen zwischenspeichern

> x <- 5 + 3
> x
[1] 8

> y <- 5-2
> y
[1] 3

> x+y
[1] 11

Variablen verwalten

Eine Variable muss aber nicht nur einen Wert enthalten, sondern kann auch mehrere Werte enthalten. Der einfachste Fall ist der, dass die Variable eine Folge von Zahlenwerten in Form eines Vektors enthält. Z.B. ist folgende Zuweisung möglich:

> Variable.1 <- c(1,2,3)

> Variable.1

[1] 1 2 3

> Die Funktion c bewirkt hier, dass die Zahlen 1, 2 und 3 zu einem Spalten-Vektor zusammengefügt  werden (c von “combine“). Generell fügt die Funktion c ihre Argumente zu einem Spalten-Vektor zusammen. Dabei können die Argumente auch Befehle oder selbst schon Vektoren sein. Z.B. ist folgendes möglich:

> Variable.1 <- c(1,2,3)

> Variable.1 <- c(Variable.1,Variable.1,3*(4+2))

> Variable.1

[1] 1 2 3 1 2 3 18

> Ergebnisse können aber nicht nur sequentiell als Vektor gespeichert werden, sondern auch als Tafel/Tableau bzw. als Matrix gespeichert werden. Mit der Funktion matrix wird aus einem Vektor eine Matrix erzeugt. Dabei geben die Argumente ncol und nrow die Anzahl der Spalten bzw. der Zeilen an, wobei nur eins dieser Argumente spezifiziert werden muss. Per Voreinstellung wird dann aus dem Vektor spaltenweise eine Matrix erstellt. Soll die Erstellung zeilenweise erfolgen, muss noch das Argument byrow=TRUE bzw. kurzer ¨ byrow=T benutzt werden. Hier ein Beispiel:

> Variable.2<-c(1,2,3,4,5,6)

> Matrix.1<-matrix(Variable.2,ncol=2,byrow=T)

> Matrix.1

[,1] [,2]
[1,] 1 2
[2,] 3 4
[3,] 5 6

Mit der Funktion dim können die Dimensionen der Matrix abgefragt werden, und mit der Funktion dimnames können Namen für die Zeilen und Spalten der Matrix festgelegt und abgeändert werden. Dabei werden die Namen über eine Liste mit der Funktion list eingelesen. Diese Liste enthält zwei Komponenten. Die erste Komponente ist ein Vektor, der die Namen für die Zeilen enthält, und die zweite Komponente ist der Vektor mit den Namen für die Spalten. Wird eine dieser Komponenten als NULL gesetzt, werden keine Namen vergeben. Hier ein Beispiel fur die Anwendung von dim und dimnames:

> Matrix.1<-matrix(c(1,2,3,4,5,6),ncol=2,byrow=T)

> dim(Matrix.1)

[1] 3 2

> dimnames(Matrix.1)<-list(c(„Row1″,“Row2″,“Row3“),c(„C1″,“C2“))

> Matrix.1

C1 C2
Row1 1 2
Row2 3 4
Row3 5 6

> dimnames(Matrix.1)<-list(NULL,c(„C1″,“C2“))

> Matrix.1

C1 C2
[1,] 1 2
[2,] 3 4
[3,] 5 6

> Mit dem Befehl > objects() oder > ls() werden alle vorhandenen Variablen aufgelistet. Hat man die obigen Variablen Variable.1, Variable.2 und Matrix.1 erzeugt, ergibt sich z.B.:

> ls()
[1] „Matrix.1“ „Variable.1“ „Variable.2“

Mit dem Befehl > rm(Variablenname) or > remove(Variablenname) wird die Variable mit dem Namen Variablenname gelöscht. Z.B. löscht

> remove(Variable.1) die Variable.1.

R Statistik Verbindung mit Excel

Das Paket openxlsx ermöglicht die Verbindung von R mit Excel. Das Paket ist unter folgendem Link erhältlich https://github.com/awalker89/openxlsx.

Nach der Installation stehen die Funktionen zu Verfügung

Beispielhaft  beschreibe ich hier das Auslesen von Excel Dateien in entsprechende Datenbereich von R.

Description Read data from a worksheet or Workbook object into a data.

frame Usage

read.xlsx(xlsxFile, sheet = 1, startRow = 1, colNames = TRUE, skipEmptyRows = TRUE, rowNames = FALSE, detectDates = FALSE, rows = NULL, cols = NULL)

Arguments

xlsxFile An xlsx file or Workbook object

sheet The name or index of the sheet to read data from

startRow first row to begin looking for data. Empty rows at the top of a file are always skipped, regardless of the value of startRow.

colNames If TRUE, the first row of data will be used as column names.

skipEmptyRows If TRUE, empty rows are skipped else empty rows after the first row containing data will return a row of NAs.

rowNames If TRUE, first column of data will be used as row names.

detectDates If TRUE, attempt to recognise dates and perform conversion.

rows A numeric vector specifying which rows in the Excel file to read. If NULL, all rows are read.

cols A numeric vector specifying which columns in the Excel file to read. If NULL, all columns are read.

Beispiel

xlsxFile <- system.file(„readTest.xlsx“, package = „openxlsx“)

df1 <- read.xlsx(xlsxFile = xlsxFile, sheet = 1, startRow = 1, skipEmptyRows = FALSE)

Weiteres Beispiel mit lokaler Datei

xlsxFile <- („C://Users//ThinkPad User//Daten//R Statistik//Rohdaten6.xlsx“)

df1 <- read.xlsx(xlsxFile = xlsxFile, sheet = 1, startRow = 1, skipEmptyRows = FALSE)

R Statistik Einstellung in R Studio Ansprache einzelnes Feld

Ansprache einzelner Felder innerhalb eines Datensates

> df1$m
[1] 5.5 5.0 6.0 4.0 5.5 6.0 5.5 5.0 6.0 5.5 5.5 5.0 6.0 5.5 5.5 5.0 6.0 5.5 5.5 5.0 6.0 5.5

> summary(df1$m)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.000 5.125 5.500 5.455 5.875 6.000

Prozessfähigkeit mit R berechnen

Der CP Befehl ist ein Teil des Paketes qualityTools. Das Paket ist erhältlich unter http://cran.r-project.org/web/packages/qualityTools/index.html.

> cp(df1$m)

Anderson Darling Test for normal distribution

data: df1$m
A = 1.3925, mean = 5.455, sd = 0.486, p-value = 0.0009828
alternative hypothesis: true distribution is not equal to normal

Statistik Software R CP Plot
Statistik Software R CP Plot

Die Parameter des Befehles cp() im Einzelnen

cp(x, distribution = „normal“, lsl, usl, target, boxcox = FALSE, lambda = c(-5,5), main, xlim, ylim, grouping = NULL, std.dev = NULL, conf.level = 0.9973002, start, lineWidth = 1, lineCol = „red“, lineType = „solid“, specCol = „red3“, specWidth = 1, cex.text = 2, cex.val = 1.5, cex.col = „darkgray“, plot = TRUE, bounds.lty = 3, bounds.col = „red“, …)

>plot (df1)

R Statistik Boxplot darstellen

>boxplot (df1)

Das Paket ggplot2 bietet sehr schöne Möglichkeiten für die Gestaltung eines Boxplots. Das Paket ist erhältlich unter http://cran.r-project.org/web/packages/ggplot2/index.html. Eine Darstellung der Möglichkeiten von ggplot2 findet Ihr unter http://docs.ggplot2.org/current/.

R Statistik Gage R&R Messsystemanalyse erstellen

Das Paket qualitytools stellt umfangreiche Funktionen der Statistik im Bereich Qualität zur Verfügung. Ihr erhaltet das Paket unter http://cran.r-project.org/web/packages/qualityTools/index.html.

Besonders gelungen finde ich die Funktion gageRR. Anbei das Beispiel aus der Doku.

#create a crossed Gage R&R Design

> gdo = gageRRDesign(3,10, 2, randomize = FALSE)

#set the response i.e. Measurements

>y = c(23,22,22,22,22,25,23,22,23,22,20,22,22,22,24,25,27,28,23,24,23,24,24,22, 22,22,24,23,22,24,20,20,25,24,22,24,21,20,21,22,21,22,21,21,24,27,25,27, 23,22,25,23,23,22,22,23,25,21,24,23)

>response(gdo) = y

#perform a Gage R&R

>gdo = gageRR(gdo, tolerance = 5)

#summary

>summary(gdo)

#standard graphics for Gage R&R

plot(gdo)

Statistische Funktionen in R

Summary()

> summary(airquality)

Als Ausgabe erhalten wir, diesmal direkt in der Konsole, diese Zusammenfassung:

Die summary-Funktion liefert uns für jede der sechs Variablen in airquality den kleinsten und größten Wert, das erste und dritte Quartil, den Median, den Durchschnittswert und die Anzahl der NA-Werte. So können wir beispielsweise sehen, dass die Ozon-Messwerte zwischen 1 und 168 (vermutlich µg/m³) und der Median bei 31,5 liegen.

Weitere statistische Funktionen in R

  • mean Arithmetisches Mittel
  • median Median
  • quantile Empirisches Quantil
  • mode Modalwert
  • max Maximaler Wert
  • min Minimaler Wert
  • length Länge des Datenvektors
  • mad Median der absoluten Abweichungen (MAD)
  • var Varianz bei einem Vektor, Kovarianz-Matrix bei einer Matrix
  • cor Korrelation zwischen Matrizen oder Vektoren
  • sum Summe der Werte eines Vektors
  • prod Produkt der Werte eines Vektors
  • any Logische Summe eines logischen Vektors
  • all Logische Produkt eines logischen Vektors
  • lsfit Sch¨atzung der Parameter der linearen Regression
  • density Schätzung der Wahrscheinlichkeitsdichte
  • length() Länge, Anzahl Elemente
  • range () Wertebereich

Weitere wichtige Inhalte für Ihr Projekt!

Folgen Sie den einzelnen, unten stehenden Links und Sie gelangen zum Thema und den entsprechenden Excel Dateien. Das Bild mit allen Links zu den Themen können Sie als pdf (Werkzeuge_20150722_4_als_pdf) downloaden.
Die Excel Vorlagen für die Lean Tools laden Sie in dieser Excel Datei (Toolbox.xlsx) runter.
Das Komplettpaket Excel Vorlagen Messsystemanalyse und Prozessfähigkeit können Sie hier anfordern.

Alle Excel Vorlagen zur Messsystemanalyse und Prozessfähigkeit

Organisieren – Define Phase

Messen – Measure Phase

Analysieren – Measure Phase

Verbessern – Improve Phase

Weiterbildung

Excel Funktionen