Shopifys Fundament der Datenwissenschaft und Technik

Datascience und Warehouse bei Shopify

Shopify hat es sich zur Aufgabe gemacht, den Handel für alle besser zu machen. Mit über einer Million Unternehmen in mehr als 175 Ländern ist Shopify eine Mini-Ökonomie mit Händler:innen, Partner:innen, Käufer:innen, Versandunternehmen und Zahlungsanbieter:innen, die alle miteinander interagieren. Eine sorgfältige und durchdachte Planung hilft uns bei der Entwicklung von Produkten, die sich positiv auf das gesamte System auswirken.

Der Handel ist ein schnelllebiges Umfeld. Das Team für Datenwissenschaft und Technik von Shopify unterstützt unsere internen Teams, Händler:innen und Partner:innen mit hochwertigen, täglichen Erkenntnissen, damit sie „schnell gute Entscheidungen treffen können“. Im Folgenden beschreiben wir die grundlegenden Ansätze für Data Warehousing und Analysen, die es uns ermöglichen, die bestmöglichen Ergebnisse für unser Ökosystem zu erzielen.


Bist du bereit deine Idee zum Leben zu erwecken?

Teste Shopify kostenlos und verkaufe, wo du willst!


Inhaltsverzeichnis: 

1. Modellierte Daten

Zu den ersten Dingen, die wir im Rahmen unserer Einarbeitung tun, gehört die Lektüre von „The Data Warehouse Toolkit“ von Ralph Kimball. Wer bei Shopify im Bereich Daten arbeitet, für den ist das eine Pflichtlektüre! Leider geht es darin nicht um ausgefallene tiefe neuronale Netze oder Technologien und Infrastruktur. Stattdessen konzentriert sich das Werk auf Datenschemata und Best Practices für die dimensionale Modellierung. Es gibt Antwort auf Fragen wie: „Wie sollte man seine Tabellen gestalten, damit sie leicht miteinander verbunden werden können?“ oder „Welche Tabelle ist am sinnvollsten für eine bestimmte Spalte?“ Im Wesentlichen geht es darum, wie man Rohdaten in ein Format bringt, das von allen abgefragt werden kann. 

Lesetipp: In diesem Beitrag dreht sich alles um die besten E-Commerce Plattformen und wie du dich für die richtige entscheidest. 

Wir behaupten nicht, dass dies die einzige gute Möglichkeit zur Strukturierung von Daten ist. Es könnte genauso gut die zehntbeste Strategie sein. Aber das spielt keine Rolle. Was zählt, ist, dass wir uns als Datenteam darauf geeinigt haben, diese Philosophie der Modellierung für den Aufbau des Data Warehouse von Shopify zu nutzen. Aufgrund dieser festgelegten Regel können wir ganz einfach durch Datenmodelle surfen, die von einem anderen Team erstellt wurden. Wir wissen, wann wir zwischen Dimensions- und Faktentabellen wechseln müssen. Wir wissen, dass wir Dimensionen sicher verknüpfen können, weil sie ungelöste Zeilen standardmäßig behandeln – ohne heimtückische Nullen, die Zeilen nach dem Verknüpfen stillschweigend verschwinden lassen.

Der Ansatz der modellierten Daten hat eine Reihe wichtiger Vorteile für eine schnellere und kooperativere Arbeit. Und da wir unseren Stakeholder:innen und Händler:innen in einem sich schnell verändernden Umfeld weiterhin Einblicke gewähren wollen, sind diese Vorteile von entscheidender Bedeutung.

Die wichtigsten Vorteile

  • Keine Notwendigkeit, die Struktur der Rohdaten zu verstehen
  • Daten sind zwischen Teams kompatibel

2. Einheitliche Daten und offener Zugang

Wir haben eine einzige Plattform zur Datenmodellierung. Es basiert auf Spark in einem einzigen GitHub-Repository, auf das jeder bei Shopify zugreifen kann – es wird von allen genutzt. Da alle dieselben Tools verwenden, können schnell und eigenständig Zusammenhänge erfasst werden: Wir wissen, wie wir den Code von Paul durchstöbern können, wir können herausfinden, wo Ben das neueste Modell platziert hat usw. Man braucht nur einen Tabellennamen auszuwählen und schon kann man 100 % des Codes sehen, der dieses Modell erzeugt hat.

Außerdem befinden sich alle unsere modellierten Daten auf einem Presto-Cluster, der dem gesamten Unternehmen und nicht nur den Datenwissenschaftler:innen zur Verfügung steht (mit Ausnahme der PII-Informationen). Ganz genau! Jeder im Unternehmen kann unsere Daten abfragen. Außerdem haben wir interne Tools, um diese Datensätze zu erkunden. Diese Offenheit und Einheitlichkeit macht die Dinge skalierbar.

Die wichtigsten Vorteile

  • Daten sind leicht auffindbar
  • Alle können die Vorteile der vorhandenen Daten nutzen

Template Icon

Kostenloses Webinar: In 30 Minuten zum eigenen Onlineshop

Du willst selbst mal sehen, wie schnell du einen Shop aufsetzen kannst?

Der Shopify-Experte und leidenschaftliche Shop-Betreiber Adrian Piegsa zeigt dir, wie du dich anmeldest, eine Domain verknüpfst, Produkte auswählst und natürlich alle rechtlichen Vorgaben umsetzt.

Jetzt kostenlos teilnehmen

3. Rigoroses ETL (Extrahieren, Transformieren, Laden)

Als ein auf Software fokussiertes Unternehmen wurden die Fähigkeiten, die wir als Datenteam entwickelt haben, von unseren Kolleg:innen aus der Entwicklung beeinflusst. Alle unsere Datenpipeline-Aufträge werden einem Komponententest unterzogen. Wir testen jede erdenkliche Situation: Fehler, Grenzfälle und so weiter. Das kann die Entwicklung etwas verlangsamen, beugt aber auch vielen Fallstricken vor. Es ist leicht, den Überblick über einen JOIN zu verlieren, der gelegentlich die Anzahl der Zeilen in einem bestimmten Szenario verdoppelt. Unit-Tests fangen solche Dinge häufiger ab, als man erwarten würde.

Lesetipp: Hier findest du die meistgestellten Fragen zu Shopify in Deutschland - Inklusive Antworten!

Zudem stellen wir sicher, dass die Datenpipeline keine Jobs unbemerkt fehlschlagen lässt. Es mag zwar schmerzhaft sein, an einem Freitag um 16 Uhr eine Slack-Nachricht über einen fünf Jahre alten Datensatz zu erhalten, der gerade ausgefallen ist. Doch dieses System stellt sicher, dass die Daten, mit denen man arbeitet, stets aktuell und genau sind.

Die wichtigsten Vorteile

  • Bessere Datengenauigkeit und -qualität
  • Vertrauen in Daten im gesamten Unternehmen

Eine Gruppe von Menschen, die mit ihren Laptops an einem Tisch sitzt. Enge zusammenarbeit zwischen den Entwickler:innen bei Shopify ist wichtig.

4. Geprüfte Dashboards

Genau wie bei unserer Datenpipeline haben wir eine Hauptvisualisierungs-Engine. Alle abgeschlossenen Berichte werden auf einer internen Website zentralisiert. Bevor wir uns wie Student:innen drei Stunden vor dem Abgabetermin blindlings in den Code stürzen, können wir uns ansehen, was andere bereits veröffentlicht haben. In den meisten Fällen ist ein großer Teil der gewünschten Kennzahlen bereits für alle zugänglich. In anderen Fällen kommt ein bestehendes Dashboard dem, wonach wir suchen, bereits sehr nahe. Da der Basiscode für jedes Dashboard zentralisiert ist, ist dies ein guter Ausgangspunkt.

Die wichtigsten Vorteile

  • Schnelleres Entdecken
  • Wiederverwendung von Arbeit

5. Geprüfte Datenpunkte

Alle Datenpunkte, welche die Grundlage für wichtige Entscheidungen bilden oder die extern veröffentlicht werden müssen, nennen wir geprüfte Datenpunkte. Sie werden zusammen mit dem Kontext gespeichert, den wir zum besseren Verständnis brauchen. Dazu gehören die ursprüngliche Frage, ihre Antwort und der Code, der die Ergebnisse erzeugt hat. Eine der Grundlagen für die Erstellung geprüfter Datenpunkte ist, dass sich das Ergebnis im Laufe der Zeit nicht ändern sollte. Wenn ich zum Beispiel frage, wie viele Händler:innen im ersten Quartal 2019 auf der Plattform aktiv waren, sollte die Antwort heute und in vier Jahren die gleiche sein. Das mag trivial klingen, ist aber schwieriger, als es scheint! Da alles in einem einzigen GitHub-Repository gespeichert ist, ist es auffindbar, reproduzierbar und kann jedes Jahr leicht aktualisiert werden.

Die wichtigsten Vorteile

  • Reproduzierbarkeit wichtiger Kennzahlen

Lesetipp: Hier findest du den ultimativen Schnellstart-Guide für deinen Shopify-Store. 

6. Alles wird von Fachleuten geprüft

Alle unsere Arbeiten werden von mindestens zwei anderen Datenwissenschaftler:innen geprüft. Sogar die Vorgesetzten und deren Vorgesetzten machen das durch. Dies ist eine weitere Vorgehensweise, die wir durch die enge Zusammenarbeit mit den Entwickler:innen aufgegriffen haben. Dashboards, geprüfte Datenpunkte, dimensionale Modelle, Unit-Tests, Datenextraktion usw. – alles wird überprüft. Die Gewissheit, dass sich mehrere Personen eine Abfrage angesehen haben, schafft im gesamten Unternehmen ein hohes Maß an Vertrauen in die Daten. Wenn wir Aufgaben erledigen, an denen mehr als ein Team beteiligt ist, beziehen wir Prüfer:innen aus beiden Teams mit ein. Und wenn wir Rohdaten verwenden, setzen wir Entwickler:innen für die Prüfung ein. Diese Maßnahmen verbessern die Gesamtqualität des Datenoutputs, indem sichergestellt wird, dass der Pipeline-Code und die Analysen einem hohen Standard entsprechen, der im gesamten Team eingehalten wird.

Die wichtigsten Vorteile

  • Bessere Datengenauigkeit und -qualität
  • Höheres Vertrauen in Daten

In unserem Podcast erhältst du spannende EInblicke in die Geschichten unserer erfolgreichen Shopify-Händler:innen. Hör doch mal rein! 

    Abonniere am besten direkt den Shopify Podcast und verpasse keine Folge mehr!

    7. Tiefgreifendes Produktverständnis

    Nun zu meinem Lieblingsteil: Alle Analysen erfordern ein tiefgreifendes Verständnis des Produkts. Bei Shopify streben wir danach, uns auf das Problem zu konzentrieren, nicht auf die Werkzeuge. Hervorragende Leistungen entstehen nicht nur, wenn wir uns die Daten ansehen, sondern wenn wir verstehen, was sie für unsere Händlerinnen und Händler bedeuten.

    Eine Möglichkeit, dies zu tun, ist die Aufteilung des Datenteams in kleinere Untergruppen, von denen jede einem Produkt (oder Produktbereich) zugeordnet ist. Ein klarer Vorteil hierbei ist, dass die Unterteams zu Expert:innen für ein bestimmtes Produkt und dessen Daten werden. Wir kennen es in- und auswendig! Wir verstehen wirklich, was die Option aktivieren in der Spalte status einer Tabelle bedeutet.

    Lesetipp: Wir zeigen dir, wie du bei deinem Wechsel zu Shopify URL-Weiterleitungen richtig verwendest.

    Ein solch fundiertes Produktwissen ermöglicht es uns, schnell die passenden Entscheidungen zu treffen. Dadurch konnten wir uns auf die Kennzahlen konzentrieren, die für unsere Händler:innen wichtig sind. Ein tiefgreifendes Produktverständnis ermöglicht es uns auch, Stakeholder:innen zu den richtigen Fragen zu führen, Störfaktoren zu identifizieren, die in den Analysen berücksichtigt werden müssen, und Experimente zu konzipieren, welche die Ausrichtung der Produkte von Shopify wirklich beeinflussen werden.

    Natürlich gibt es auch eine Kehrseite, die wir die „Spezialistenlücke“ nennen: Die Unterteams haben weniger Einblick in andere Produkte und Datenquellen. Wir werden gleich erklären, wie wir das angehen.

    Die wichtigsten Vorteile

    • Bessere Analysequalität
    • Konzentration auf wesentliche Probleme

    Zwei Menschen sehen sich einen Code auf einem Bildschirm gemeinsam an. Ein tiefgreifendes Produktverständnis ist ein wichtiger Punkt bei der Zusammenarbeit bei Shopify.

    8. Kommunikation

    Was nützen Erkenntnisse, wenn man sie nicht mit anderen teilt? Unsere Philosophie ist, dass die Gewinnung einer Erkenntnis nur die halbe Arbeit ist. Die andere Hälfte ist die Vermittlung des Ergebnisses an die richtigen Leute auf eine verständliche Art und Weise.

    Dabei wollen wir in jedem Fall vermeiden, jemandem einfach eine einzelne Grafik oder eine Statistik vor die Nase zu halten. Stattdessen schreiben wir die Ergebnisse zusammen mit unseren Einschätzungen und Empfehlungen auf. Vielen widerstrebt das. Doch wenn die Ergebnisse richtig interpretiert werden und die richtigen Aktionen angestoßen werden sollen, ist es entscheidend. Wir können nicht erwarten, dass sich Nicht-Expert:innen auf eine Überlebensanalyse konzentrieren. Dies mag das Werkzeug der Datenwissenschaftler:innen zum Verständnis der Daten sein, darf aber nicht mit dem Ergebnis verwechselt werden.

    In unserem Team wird die Nachricht jedes Mal, wenn jemand etwas mitteilen will, von anderen geprüft – und das vorzugsweise von Personen, die nicht viel Hintergrundwissen über das Problem haben. Wenn sie die Nachricht nicht verstehen, ist sie wahrscheinlich noch nicht fertig. Intuitiv mag es am besten erscheinen, die Arbeit von einer Person überprüfen zu lassen, welche die Bedeutung der Botschaft versteht. Die Annahmen über die Nachricht werden jedoch deutlich, sobald sich jemand mit begrenzter Einsicht einbringt. Wir vergessen oft, wie viel Kontext wir bei einem Problem haben, das wir gerade erst bearbeitet haben. Dementsprechend ist das, was wir für offensichtlich halten, für andere vielleicht nicht so offensichtlich.

    Die wichtigsten Vorteile

    • Einbindung von Stakeholder:innen
    • Positiver Einfluss auf die Entscheidungsfindung

    9. Zusammenarbeit zwischen Datenteams

    Weil wir die gleichen Annahmen über die Daten und die zugrunde liegenden Rahmenbedingungen teilen, verstehen wir einander. So können wir uneingeschränkt zusammenarbeiten, um wichtige Herausforderungen für unsere Händler:innen zu bewältigen. Nehmen wir zum Beispiel COVID-19. Wir haben eine funktionsübergreifende Task Force mit einem Champion pro Daten-Unterteam gebildet, um die bereits erwähnte Spezialistenlücke zu schließen. Wir treffen uns täglich, um unsere Erkenntnisse auszutauschen, und arbeiten gemeinsam an komplexen Fragestellungen, die mehrere Produkte erfordern oder betreffen können. Innerhalb weniger Stunden nach der Gründung dieser Task Force lief das Team auf Hochtouren. Alle haben erfolgreich auf ein Ziel hingearbeitet: die Dinge für unsere Händler:innen besser zu machen, ohne dabei auf ihren spezifischen Produktbereich beschränkt zu sein.

    Die wichtigsten Vorteile

    • Unternehmensweite Effekte
    • Teamgeist

    Kostenloses Ebook: 20 erfolgreiche Shopify-Stores in DACH und ihre Stärken

    Wir stellen dir 20 sehr erfolgreiche deutschsprachige Händler:innen samt Shops vor und zeigen, was du von ihnen lernen kannst!


    10. Eine positive Datenphilosophie

    Wenn du wichtigen Entscheidungsträger:innen in deinem Unternehmen bahnbrechende Erkenntnisse mitteilst, hören sie dann zu? Bei Shopify setzen die Führungskräfte vielleicht nicht jede einzelne Empfehlung aus den Datenteams um, weil es natürlich auch andere Überlegungen zu berücksichtigen gilt. In jedem Fall aber hören sie zu. Sie haben ein offenes Ohr für alles, was unseren Händler:innen helfen könnte.

    Shopify kündigte auf der Reunite mehrere Funktionen an, die Händler:innen helfen sollen - So beispielsweise die nun für alle Händler:innen verfügbare Funktion für Geschenkgutscheine und die Einführung der lokalen Zustellung. Das Datenteam lieferte viele Erkenntnisse, die diese Entscheidungen beeinflusst haben.

    Lesetipp: Hier findest du die Highlights von Shopify Editions 2022. 

    Am Ende des Tages ist es die Aufgabe der Datenwissenschaftler:innen, dafür zu sorgen, dass die Erkenntnisse von den wichtigsten Personen verstanden werden. Trotzdem ist es sehr hilfreich, wenn Führungskräfte tatsächlich zuhören. Die Einstellung unseres Unternehmens zu Daten macht unsere Arbeit nicht nur interessant, sondern auch wirkungsvoll.

    Die wichtigsten Vorteile

    • Wirkungsvolle Datenwissenschaft

    Ein Finger zeigt auf einen Code. Ein weiterer wichtiger Punkt in der Zusammenarbeit ist eine positive Datenphilosophie.

    Kein Shopify-Teammitglied fängt bei Null an

    Shopify ist nicht perfekt. Aber unser Schwerpunkt auf Grundlagen und langfristiges Entwickeln zahlt sich aus. So muss niemand im Datenteam bei Null anfangen. Wir greifen auf jahrelange Erfahrung mit Daten zurück, um wertvolle Erkenntnisse zu gewinnen. Einige erhalten wir aus bestehenden Dashboards und geprüften Datenpunkten. In anderen Fällen können wir mit modellierten Daten neue Kennzahlen mit weniger als 50 Zeilen SQL berechnen. Die Kultur des Datenaustauschs, der Zusammenarbeit und der fundierten Entscheidungsfindung bei Shopify sorgt dafür, dass diese Erkenntnisse in die Tat umgesetzt werden. 


    Du interessierst dich leidenschaftlich für große Datenmengen und brennst darauf, mehr zu lernen? Melde dich bei uns oder bewirb dich auf unserer Karriereseite.


    Bist du bereit deine Idee zum Leben zu erwecken?

    Teste Shopify kostenlos und verkaufe, wo du willst!


    Which method is right for you?Über den Autor: Marc-Olivier Arsenault ist Senior Data Science Manager und leitet das Retail Data Science Team. Marco und seine Teams konzentrieren sich darauf, die besten Produktanalysen zu entwickeln, damit Shopify das beste Point of Sale- und Einzelhandelserlebnis für Händlerinnen und Händler schaffen kann.

    Dieser Artikel von Marc-Olivier Arsenault erschien ursprünglich im Shopify.com-Blog und wurde übersetzt.