TIBCO Spotfire hilft bei der visuelle Datenexploration und kann schnell und unkompliziert Informationen aus Daten gewinnen. Die Wurzeln von Spotfire liegen bereits in den frühen 90-er Jahren. An der Universität Maryland arbeiteten Christoph Ahlberg und Ben Shneiderman an Software, die die Visualisierung von Daten ermöglichen sollte. Daraus entstand das ”Information Visualization and Exploration Environment” (IVEE). Hieraus entwickelte sich 1996 Spotfire. Das dahinterstehende Unternehmen wurde 2007 von Tibco aufgekauft. Es existieren sowohl Desktop als auch Server Versionen, für die nachfolgende erste Analyse reicht jedoch die Desktop Version vollkommen aus.
Spotfire unterstützt verschiedenste Dateiquellen. Neben den Standards wie Excel- und CSVDateien, werden auch relational Datenbanken (Oracle, MSSQL, PostgreSQL,..) und Business Lösungen wie Salesforce oder SAP unterstützt.
Der Einfachheit halber beginnen wir mit für unsere erste Analyse mit CSV Dateien. Wir benutzen dazu Datensätze aus dem OpenData Portal der Deutsche Bahn. Zu dem Call-A-Bike Angebot liefert die Deutsch Bahn Daten zu Fahrädern, Stationen und Buchungen. Ich habe die Daten von Juli 2016 genommen. Nach dem Download der Dateien können die Daten in Spotfire geladen werden.
Datenimport
Als erstes lade ich HACKATHON_VEHICLE_CALL_A_BIKE in Spotfire
Öffne CSV Datei
Beim Import können schon die Datentypen der Spalten angepasst werden, einzelne Zeilen
ignoriert werden und das Encoding angepasst werden.
Wir laden nur die Spalten VEHICLE_HAL_ID,VEHICLE_HAL_SRC, VEHICLE_MODEL_NAME, VEHICLE_TYPE_NAME und COMPANY
Anschließend importiere mit ich “Add Data Tables” -> ADD -> Files die Datei
HACKATHON_BOOKING_CALL_A_BIKE. Die Datentypen müssen noch manuell angepasst werden.
Import Assistent
add Data table
Über Manage Relation können die beiden Dateien über die Spalte Vehicle_Hal_ID miteinander verknüpft werden.
Die Datei ist 6GB (<12000000 Zeilen) groß, also dauert das Laden einen Moment.
Anschließend importieren wir noch HACKATHON_RENTAL_ZONE_CALL_A_BIKE und Verknüpfen die Daten über die
Spalte RENTAL_ZONE_HAL_ID.
Die Daten können wir uns jetzt über Insert->Visualization->Data (oder den Shortcut Crtl+1) darstellen lassen.
Der Datatype für einige Spalten ist nach einem einfachen Importieren noch falsch, da wir die Typen beim Import
nicht angepasst haben. Aber wir können das aber auch nachträglich anpassen. Dazu muss nur Insert>Transformations ausgewählt werden.
Dann die richtige Data Table und unter Transformation “Change Data Type”.
Mit Add können dann die Transformationen für die DATE Spalten und die Service Length Spalten
die richtigen Datentypen angelegt werden.
Visualisierung
Erst Mal eine Barchart mit den Buchungen je Monat. Dazu eine Barchart einfügen Insert>Visualization>BarChart (oder CTRL+3) In der Y Achse Row Count und in der X-Achse DateBooking auswählen und dann Year+Quarter+Month.
Histogram
Bei der Analyse der Rohdaten fällt auf, dass entweder Trip_Length_Minutes oder
Trip_Length_Service_Minutes gefüllt ist. Um die Mietdauer genauer zu analysieren,
können wir das normalisieren. Dazu Insert>Calculated Columns auswählen
Insert Calculated Column
Zur Analyse erstellen wir ein LineChart über Date Booking und unsere Calculated Column
LineChart
Hier fällt direkt ein Ausreißer im Dezember 2014 auf. Im Winter gehen einige der Räder in die Winterpause,
es scheint also, dass hier Buchungsfehler vorliegen. Außerdem haben einige
der Buchungen mit der Booking_Length_Classification >180min keine Trip_Length Werte. Wir können die Daten aber aus der
Analyse löschen. Dazu müssen wir nur den Filter setzen
Filter
Dann in der Tabelle mit Strg+a alle Zeilen auswählen und mit einem Rechtsklick>Marked Rows>Delete die Zeilen löschen.
Auch alle Buchungen aus Juli 2016 sollten gelöscht werden, da der Monat nicht komplett im Datensatz
enthalten ist.
Filtered LineChart
Nachdem die Daten bereinigt sind, bauen wir eine neue Visualisierung mit Insert -> New Page
Dann können wir eine Bar Chart Visualisierung über das VehicleCallABike Dataset und eine Tabelle über das BookingCallABike Dataset.
Bar Chart
Marking Vehicle Type Name
Marking Call a Bike
Dazu müssen wir in den Properties des BookingCallABike Dataset das Data limiting definieren. Sinnvoll ist es, anstatt des Standard Namens Marking1, Marking2, … einen sinnvoller Namen zu verwenden.