UseR-Treffen am 26.10.2016

Nach einer Begrüßung und kurzen Vorstellung der insgesamt rund 35 Teilnehmer/-innen, begann der erste Abend des UseR-Treffens mit einer Demonstration zu dynamischen Dokumente mit Markdown und R. Markdown, das als einfache Auszeichnungssprache dient, wird zur Erstellung von gegliederten und formatierten Dokumenten genutzt. So können in Markdown-Dokumente R-Codes eingebunden und auch ausgeführt werden, um z.B. Tabellen und/oder Graphiken dynamisch zu erzeugen. Dabei wurde während des Treffens mehrfach das gute Zusammenspiel von R und Markdown, sowie die immer wiederkehrende Automatisierung von Auswertungen betont.

Nach einem kurzen Austausch der Teilnehmer über die vorgestellten dynamischen Dokumente, folgte der zweite thematische Schwerpunkt des Abends: Die Einführung in das Versionsmanagement mit Git. Im Allgemeinen geht es dabei um die Organisation von Daten, Dokumenten und Auswertungen, wobei die Versionsverwaltung zentral ist. Dies bedeutet, dass mithilfe von Git Änderungen an einer Datei stets nachverfolgt werden können. Aufgrund dessen wird insbesondere das gemeinsame Schreiben von Kooperationsprojekten vereinfacht, da für den jeweiligen Anwender immer die aktuellste Version der Datei vorliegt.

Präsentationen vom ersten Treffen

  • Einführung in R für neue Anwender und Umsteiger anderer Statistik Software
    Präsentation (1.5 MB)
  • Einführung in das Versionsmanagement mit Git
    Jan Marvin Garbuszus
    Präsentation
  • Dynamische Dokumente mit Markdown und R
    Sebastian Jeworutzki
    Präsentation (0.35 MB)

Bis die Zukunft Gegenwart wird

Unter diesem Motto fand das zweite UseR-Treffen mit 20 Teilnehmerinnen und Teilnehmern statt. Thematischer Schwerpunkt dieses Abends war das neue Paket „Future“, welches dazu genutzt werden kann Auswertungen in R zu parallelisieren. Die Parallelisierung ermöglicht eine Ausführung im Hintergrund, mit dem Ziel ein Objekt zukünftig verfügbar zu machen, ohne den R Prozess direkt zu blockieren. Erst wenn entsprechende Objekt aus der „Zukunft“ benötigt werden, wird auf die Ausführung des Prozesses gewartet, bis dieser Gegenwart geworden ist.

Dies setzt voraus, dass entsprechende Probleme in Teilprobleme zerlegt werden können, da eine Parallelisierung sonst nicht möglich ist. Dabei zu bedenken ist zudem, dass die Speicherauslastung unter Umständen hoch sein kann. In vielen Fällen überwiegen die Vorteile von Future, da neben der Zeiteinsparung auch die bekannte R-Syntax weitestgehend weiter genutzt werden kann und die Implementierung für die Nutzer/-innen relativ einfach ist. Nach Verständnisfragen zum Future-Paket und nach einer kleinen Diskussion erfolgten kurze Rezensionen über Einführungsbücher in R. Diese werden in Kürze ebenfalls hier auf der Homepage gelistet und im Laufe weiterer UseR-Treffen erweitert.

Präsentation vom zweiten Treffen


Rstan: Bayesianische Modelle in R

Im Mittelpunkt des dritten UseR-Treffens stand das Themengebiet der bayesianischen Statistik, wobei den insgesamt 20 Teilnehmenden diese bestimmte Sichtweise auf den Wahrscheinlichkeitsbegriff dargelegt wurde.

Aufbauend auf eine kurze Einführung in die Grundlagen der bayesianischen Statistik, folgte eine erste Einführung in die C++-Bilbliothek Stan. Dabei konzentrierten sich die Ausführungen vor allem auf den Aufbau eines Stan Modells. Entsprechende Modelle können nach der Spezifizierung durch das Paket „rstan“ in R aufgerufen werden. Hierbei standen neben den Unterschieden in der Umsetzung des Schätzverfahrens im Vergleich zu bspw. GLM-Modellen der frequentistischen Statistik, auch die Interpretation der bestimmten Parameter im Fokus.

Neben einer Einführung in die Programmierung von Modellen in Stan, setzte der Vortrag einen weiteren Schwerpunkt auf die unterschiedlich effizienten Algorithmen, die in verschiedenen bayesianischen Staistikpaketen - darunter auch in Stan - implementiert sind. Nachdem die theoretischen Grundlagen vertiefend dargelegt und der Unterschied zwischen approximativen und simulativen Methoden erläutert wurde, folgten Beispiele der bayesianischen Statistik in R, die anhand von Stan- und R-Syntax und verschiedenster grafischer Darstellungen präsentiert wurden.

In der auf den Vortrag folgenden ausführlichen Frage- und Diskussionsrunde konnte eine ganze Reihe von Nachfragen beantwortet werden, auf ergänzende R-Pakete hingewiesen sowie Hinweise auf einschlägiger Literatur zur bayesianischen Statistik gegeben werden.

Präsentation vom dritten Treffen


Nichtlineare Systemgleichungen und die data.frame Alternative

Schwerpunkt des vierten Treffens der R-Nutzergruppe war das Thema nichtlineare Schätzung von Gleichungssystemen und ein kurzer Einstieg in das Paket „data.table“, wobei die etwa 25 Teilnehmenden verschiedenste Fragen gerade um die Speichernutzung in R diskutierten.

Jan Marvin Garbuszus erläuterte wie nichtlineare Regressionen in R funktionieren, welche Fallstricke die nichtlineare Optimierung bietet und wie er diese Schwierigkeiten bei der Programmierung des Pakets "nlsur" löste. Dabei wurde neben dem Schätzverfahren insbesondere auf die Problematik der Speicherauslastung in R hingewiesen. Anhand einiger Beispiele wurde die Funktionalität des Programms verdeutlicht.

Sebastian Jeworutzki demonstrierte mit Beispielauswertungen die Möglichkeiten des R-Pakets "data.table". Das Paket ist eine effiziente Alternative zu den bekannten data.frames und ermöglicht es im Funktionsaufruf Variablen auszuwählen und gleichzeitig Funktionen auf diese anzuwenden sowie über Variablen des Datensatzes zu gruppieren. So können mehrere Millionen Zeilen eines Datensatzes gruppiert und mit nur einem data.table Aufruf ausgewertet werden.

Zwischen den Vorträgen gab es einige Fragen, bezüglich der Speicherauslastung von R durch größere Datenobjekte und effizientere Programmierung, die im Anschluss an die Vorträge in geselliger Runde diskutiert wurden.

Präsentationen vom vierten Treffen

  • nlsur: Schätzung nichtlinearer Gleichungssysteme in R
    Jan Marvin Garbuszus
    Präsentation (0.3 MB)
  • data.table
    Sebastian Jeworutzki
    Präsentation (0.35 MB)

Geodatenanalyse und Web Scraping mit R

Der Vortrag von Sebastian gibt einen Überblick über Geodatenanalyse in R. Dabei werden Grundlagen zum Umgang mit und zur Visualisierung von Geodaten, neuere Entwicklungen im Hinblick auf Objekt-Klassen für Geodaten (sf-Paket) und einige Anwendungsbeispiele behandelt.

Marvin zeigte anhand einiger komplexer Beispiele wie man RSelenium und Rvest zum Web Scraping nutzen kann: