Daten-Visualisierungs-Wettbewerb auf Kaggle.com gewonnen

08.02.2013 - Programmieren

Kaggle-was?! Offenbar hab ich ein neues Level an Geek-ness erreicht - In meinem IT-Kollegen-Kreis hat zumindest noch niemand von der Plattform Kaggle gehört. Okay: Einfach gesagt veranstaltet Kaggle so was wie die Champions League des Data Mining. Firmen wie Google, IBM, Nasa oder Facebook veröffentlichen auf der Platform aktuelle Problemstellungen welche dann in hoch dotierten Wettbewerben von tausenden von "Kagglern" gelöst werden. Die offene Kaggle Community umfasst mittlerweilen rund 100'000 Wissenschaftlern und Privatpersonen aus den verschiedensten Fachbereichen, verteilt über den ganzen Erdball.

Bei den Wettbewerben, bzw. den Problemstellungen handelt es sich meist um Predictive Modeling Aufgaben bei welchen jeweils nach einem optimalen Modell (Algorithmus) gesucht wird, welches die Daten bestmöglich charakterisiert. Aus dem Modell lassen sich dann z.B. Prognosen für neue, änlich geartete Daten erstellen. Beispiel: Gesucht ist ein Modell für die Überlebenswahrscheinlichkeit auf beim Schiffsunglück der Titanic. Zur Verfügung stehen ein Teil der Passagierdaten (Name, Alter, Geschlecht, Kabinen-Klasse, Ticketpreis...) inklusive ob die Person überlebt hat, sowie ein zweiter Teil von Passagierdaten bei welchem die Information zum Überleben der Personen fehlt. Aus dem ersten Teil der Daten soll nun ein Modell erstellt werden, welches dann im zweiten Teil die unbekannte Informationen zum Überleben vorhersagt. Ein einfach Modell wäre "Falls das Geschlecht der Person weiblich ist, hat die Person überlebt, sonst nicht", welches bereits in 70% der Fälle eine korrekte Prognose ergibt. Anhand der hochgeladenen Prognose errechnet Kaggle jeweils automatisch einen Score und der Teilnehmer sieht diesen in einer Rangliste auf der Website von Kaggle.

Auf Kaggle bin ich Mitte 2012 gestossen und fand sowohl die Crowdsourcing-Idee hinter der Plattform brilliant, also auch die Aufgaben extrem spannend. In meinen letzten Weihnachtsferien hatte ich dann endlich genügend Zeit um an meiner ersten Kaggle Competition teilzunehmen. Wie sich herausstellte mit Erfolg. Der Leaping Leaderboard Leapfrogs Wettbewerb wurde von Kaggle selber ausgeschrieben. Zur Abwechslung ging es weniger um Daten-Modelle als mehr um einen neue Visualisierung der Kaggle Wettbewerbs-Ranglisten. Datenbasis waren die Einsendungen verschiedener, abgelaufener Wettbewerben mit Teamnamen, Score und Datum. Gesucht war eine möglichst ansprechende Visualisierung welche die harten Kämpfe um die vordersten Plätze in der Rangliste aufzeigt.

Ich habe mich an das Mantra "Keep it simple" gehalten: Im Gegensatz zu den meisten andern Teilnehmern welche ganze Web-Applikationen bauten um den absoluten Score aller Teams über die Zeit zu verfolgen, habe ich mich schlicht auf die relativen Ranglisten-Positionen konzentriert. Herausgekommen ist eine recht einfache aber illustrative Battles of the Best Grafik welche die Kämpfe der führenden Teams über die Zeit aufzeigt. Der Kaggle Community hat es gefallen. Nach Ablauf der Eingabefrist habe ich am meisten Votes gesammelt und bin nun (stolzer) Besitzer eines iPads ;-)

Technische Details