Wir alle freuen uns auf die anstehende Fußball-Weltmeisterschaft und sie bietet mir ein spannendes Beispiel, um anschaulich zu zeigen, wie man aus Daten Mehrwert erzielt. Immer wieder werde ich gefragt, womit genau ich mich beruflich beschäftige. Daten analysieren? Ein Bäcker backt Brot, ein Schreiner arbeitet mit Holz, aber Daten analysieren, was kann man darunter verstehen?
Keine Ahnung von Fußball und doch vorne dabei
Datenanalyse erlaubt es mir als ausgesprochenem Fußball-Noob – zu Deutsch: ich habe keine Ahnung von Fußball – bei den großen Turnieren ganz gute Tippergebnisse zu erzielen. Bei der letzten Weltmeisterschaft wollte mir lange Zeit niemand glauben, dass Deutschland und Argentinien im Finale aufeinandertreffen werden, und bei der Frauen WM 2015 gelang mir sogar der Sieg beim firmeneigenen Tippspiel.
Daten, der Rohstoff des 21. Jahrhunderts?
Das Internet ist voll von Fußballinformationen und -statistiken, genau wie es in jedem Unternehmen unzählige Kunden-, Rechnungs-, Auftrags-, Produktions- oder auch Marketingdaten gibt. Für sich gesehen sind die Rohdaten von begrenztem Wert, doch durch ihre Auswertung und Verdichtung ergeben sich häufig erstaunliche Einsichten.
Während ich hauptberuflich aus den Unternehmensdaten herauslese, wie sich die Geschäfte entwickeln oder wo ein Schippchen mehr besonders lohnenswert erscheint, werde ich mich heute mit der anstehenden Weltmeisterschaft beschäftigen.
Eine Prognose für die Vorrunde entsteht
Zunächst möchte ich nur eine Vorhersage für die Vorrunde erstellen. Schon jetzt weiß ich, dass ich dieses Vorhersagemodell für die Hauptrunde wiederverwenden werde. Es lohnt sich also, ein paar Minuten über den Verarbeitungsprozess der Daten nachzudenken.
Außerdem werden Sie feststellen, dass ich von stark vereinfachten Annahmen ausgehe. Zum einen erhöhe ich damit die Lesbarkeit dieses Artikels. Andererseits könnte sich aber zeigen, dass sich damit keine ordentlichen Vorhersagen treffen lassen. Das muss ich unbedingt im Auge behalten, ich brauche ein Controllingsystem.
Haben Sie den Durchblick?
Klar, die Topteams der Weltmeisterschaft kennen wir alle und während jeder von uns für das Spiel Südkorea gegen Deutschland am 27. Juni eine leichte Ahnung hat, könnte man bei Tunesien gegen England oder Kroatien gegen Nigeria schon unsicher werden.
Insgesamt gilt es, die Ergebnisse von 64 Spielen vorherzusagen:
- 48 Vorrundenspiele
- + 8 Achtelfinale
- + 4 Viertelfinale
- + 2 Halbfinale
- + 1 Spiel um Platz Drei
- + 1 Finale
Selbst wenn man glaubt zu wissen, wer jeweils die Nase vorne hat, stellt sich noch die Frage nach dem Ergebnis der Spiele.
Die Annahmen direkt aus dem Web importiert
Nur zwei Grundannahmen sollen meinen WM Tipp beeinflussen:
- Das jeweils punktstärkere Team der Weltrangliste gewinnt
- Beim Spielstand werde ich mich auf die statistisch häufigsten Ergebnisse beschränken.
Als ersten Schritt importiere ich die statistisch häufigsten Spielstände, die Weltrangliste und den Spielplan aus dem Web nach Excel und stelle fest, dass die Niederlande und Italien leider nicht dabei sind. Wie schade!
Direkt zu Beginn bemerke ich, dass die Werte so, wie sie im Web stehen, ein wenig aufbereitet werden müssen. Es ist erstaunlich, wie viel Arbeit Excel einem dabei mittlerweile abnimmt. Während ich die Weltrangliste unter https://de.fifa.com/fifa-world-ranking/ranking-table/men/index.html direkt per Daten / Daten abrufen / Aus dem Web abrufen kann, muss ich bei den Spielständen noch etwas nacharbeiten:
Unter https://www.windrawwin.com/statistics/full-time-scores/# finde ich die Ergebnisse von über 30.000 Fußballspielen der laufenden Saison jeweils nach regulärer Spielzeit aber vor Verlängerung und Elfmeterschießen. Die dortige Unterscheidung zwischen Heim- und Auswärtstoren ist bei einer Weltmeisterschaft kaum anwendbar, weshalb ich die Spielstände weiter zusammenfasse. Ich sehe, dass die fünf häufigsten Spielstände bereits zwei Drittel aller Spiele abdecken. Diese Verteilung werde ich für meine Vorhersage verwenden.
Für die Vorrunde erwarte ich also die folgenden Ergebnishäufigkeiten:
Spielstand | Anteil | Anzahl |
1:0 | 0:1 | 29% | 14 |
2:1 | 1:2 | 22% | 11 |
2:0 | 0:2 | 19% | 9 |
1:1 | 18% | 8 |
0:0 | 13% | 6 |
Mit wenigen Schritten zum WM Tipp
Nun lasse ich mir im Spielplan nur noch die Punkte der Gegner anzeigen und berechne deren Differenz in den jeweiligen Paarungen. Diese Differenzen ordne ich der Größe nach und vergebe für den geringsten Unterschied zunächst die sechs 0:0 Spielstände, dann die 1:1 für die acht nächst höheren Unterschiede, weil diese Mannschaften sich vielleicht die ausgeglichensten Partien liefern werden. Für die folgende Stufe, es sind die Mannschaften mit 200-350 Punkten Unterschied, vermute ich die größte Spieldynamik, und vergebe hier die elf 2:1 Stände, es folgen vierzehnmal die 0:1 und neunmal die 2:0 für die Mannschaften mit dem größten Punkteunterschied.
This post is also available in: English