Das Zipf’sche Gesetz – Die umgekehrt proportionale Verteilung von allem [Pareto’s Bruder]

Zipfsche Gesetz Power Law Zipf

Vor einigen Tagen bin ich im Buch The Dip von Seth Godin das erste mal über „Zipfs Law“ gestolpert und seither fasziniert.


Das Zipfsche Gesetz besagt, dass die Häufigkeit eines Events umgekehrt proportional zu seiner Position in der Reihenfolge ist.


George Kingsley Zipf

Das Gesetz klingt erstmal nicht sonderlich spektakulär, aber glaub mir, gleich wird’s spannend.

Der smarte George Kingsley Zipf stellt nämlich fest, dass in jeder Sprache der Welt (!) das häufigste Wort ziemlich exakt doppelt so häufig vorkommt wie das zweithäufigste. Das dritthäufigste Wort ein Drittel so oft wie das häufigste, usw.

Dieses Phänomen wurde in den 1930er Jahren von Zipf entdeckt und wird seither als “Zipfsches Gesetz” bezeichnet. Bis heute kann nicht genau erklärt werden, wie es dazu kommt.

Forscher fanden stattdessen heraus, dass Zipfs Gesetz auch auf viele andere Bereiche übertragbar ist, z.B. Einwohnerzahlen von Städten, Intensität von Vulkanausbrüchen oder Marktanteilen von Unternehmen.

Weiter unten findest du einige Beispiele aus diesen Bereichen.

Für mich ist das Zipfsche Gesetz aber auch auf der persönlichen Ebene interessant. Weshalb ich ihm einen eigenen Part im Artikel „Power Laws“ gewidmet habe.


Das Zipfsche Gesetz im Detail

Das Zipfsche Gesetz ist eine statistische Wahrscheinlichkeitsverteilung in Datensätzen (z.B. Wörtern in einem Text), bei der die Häufigkeit der Elemente einer Menge umgekehrt proportional zu ihrem Rang ist. 

Das häufigste englische Wort “the” wird nach der Zipf-Verteilung doppelt so häufig verwendet wie das zweithäufigste Wort, das dritthäufigste Wort wird nur ein Drittel so oft verwendet und so weiter (s.u.). Erst ab Rang 1000 – bei den seltenen Worten – hält das Gesetz nicht mehr Stand.

Zusammengefasst kann man sagen: Werden bestimmte Größen in eine Rangfolge gebracht, kann man die Wahrscheinlichkeit (p) ihres jeweiligen Wertes und ihre Relevanz aus ihrem Rang (n) ablesen.

Zipfs Gesetz am Beispiel der ersten Hundert Worte aus Moby Dick, © Radboud University

Die mathematische Formel dafür lautet:

p(n) \sim \tfrac{1}{n}.

Praktisch jede Suchmaschine, inkl. Google nutzt das Zipfsche Gesetz für ihre Ranking-Bewertung von Texten.

Quantität und Rang der benutzten Suchbegriffe nehmen Einfluss auf die Relevanz des Textes.

Eine kleine Rechenhilfe⁺


Das mit Abstand beste Video zu Zipf’s Law

Wissenschaftliche Belege der Zipf Verteilung

Als Zipf sein Gesetz um 1935 aufgestellte, konnten die Validität und Relevanz für andere Bereiche noch nicht mit Sicherheit bestätigt werden.

Schon 1949 behauptete Zipf, dass die Zipf Verteilung auch für die größte Stadt eines Landes gelte. Durch die Anwendung des Gesetzes in der Städteplanung, könnten Ressourcen besser zugeteilt werden.

Erst in den letzten Jahrzehnten konnte das Zipf’sche Gesetz dank großer Datenbanken umfangreich getestet werden. Forscher der Universitat Autonoma Barcelona analysierten beispielsweise die Sammlung englischsprachiger Texte im Project Gutenberg, die mehr als 30.000 Werke enthält. Sie fanden heraus, dass das Zipfsche Gesetz für mehr als die Hälfte der Werke gilt, wenn man die seltensten Wörter außen vor lässt.

Nach fast einem Jahrhundert wissen wir immer noch nicht genau wissen, warum das das Zipfsche Gesetz zutrifft.

Buchstabenhäufigkeit in deutschen Texten, © Loki Wikiwand

Mittlerweile weiß man, dass die Zipfsche Verteilung von Wörtern in der natürlichen Sprache universell zutrifft. Sie gilt sowohl in der Sprache von Kindern unter 32 Monaten, als auch im Fachwortschatz von Lehrbüchern aus Universitäten.

Dabei tritt das Phänomen nicht nur im Englischen oder Deutschen auf, sondern in fast allen anderen Sprachen dieser Erde. Zipfs Law wird sogar in der Sprache von Außerirdischen vermutet, nachdem 2016 festgestellt wurde, dass auch der Wortschatz von Delphinen dem Gesetz unterliegt.1https://nautil.us/listening-for-extraterrestrial-blah-blah-2-10049/

Der Linguist Sander Lestrade aus den Niederlanden entwickelte zuletzt ein neues Modell, um das Zipfsche Gesetz zu erklären. Computersimilationen konnten zeigen, dass die Wechselwirkung zwischen der Struktur der Sätze (Syntax) und der Bedeutung von Wörtern (Semantik) essenziell ist, um eine Zipfsche Verteilung hervorzurufen.

4 Beispiele für Zipfs Gesetz

Die Beziehung, die Zipf bei Wörtern feststellen konnte, wird auch in vielen anderen Systemen deutlich, die von Menschen geschaffen wurden.

In der Rangfolge mathematischer Ausdrücke, der Rangfolge von Städten nach Einwohnerzahl 2Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76, bei Noten in der Musik 3Zanette, Damián H. (June 7, 2004). „Zipf’s law and the creation of musical context“. arXiv:cs/0406015. oder auch der Rangfolge von Transkriptomen in Zellen 4Lazzardi, Silvia; Valle, Filippo; Mazzolini, Andrea; Scialdone, Antonio; Caselle, Michele; Osella, Matteo (2021-06-17). „Emergent Statistical Laws in Single-Cell Transcriptomic Data“. bioRxiv: 2021–06.16.448706. doi:10.1101/2021.06.16.448706. S2CID 235482777. Retrieved 2021-06-18..

Besonders im Bereich Stadtplanung wurde viel geforscht. Es gibt aber auch neuere Studien, die die Relevanz des Zipfschen Gesetz infrage stellen. Zwar können hier Potenzgesetze, wie das Zipf Gesetz, festgestellt werden, doch die Abweichungen sind teils nicht unerheblich.

Dennoch liefert die Zipf Verteilung in vielen Systemen eine Näherung an die tatsächlichen Werte. Nachfolgend einige Beispiele mit den Zahlen nach Zipf und den realen Werten.


Rangfolge von Städten nach Einwohnerzahlen

RangfolgeStadtEinwohnerzahl n. ZipfTatsächliche Einwohnerzahl (2015)
1. Berlin3.520.0313.520.031
2. Hamburg1.760.0161.787.408
3. München1.173.3441.450.381
4. Köln 880.0081.060.582
5. Frankfurt am Main704.006732.688
© Wikipedia

Rangfolge der größten Firmen der USA nach Umsatz

RangfolgeUnternehmenUmsatz (Mrd. US $) n. ZipfTatsächlicher Umsatz (Mrd. US $)
1. Walmart555,233555,233
2. Sinopec277,6165407,009
3. Amazon.com185,077386,064
4. State Grid138,808383,906
5. China National Petroleum111,047379,130
© Wikipedia

Rangfolge der meistbesuchten Websites nach Traffic

RangfolgeWebsiteTraffic in Mrd. n. ZipfTatsächlicher Traffic (2020)
1. Google92,5 92,5 Milliarden
2. YouTube46,25 34,6 Milliarden
3. Facebook30,83 25,5 Milliarden
© Visualcapitalist

Marktanteile Cola Markt in den USA 2020

RangfolgeMarkeMarktanteil n. ZipfTatsächlicher Marktanteil
1. Coca Cola44,9%44,9%
2. Pepsi Co22,5%25,9%
3. Dr. Pepper15,0%21,1%
4. Refresco11,3%2,6%
© Statista

Klickrate der besten Google Positionen 2020

Position Klickrate in Prozent n. ZipfTatsächliche Klickrate
1. 28,5%28,5%
2. 14,3%15,7%
3. 9,5%11,0%
4. 7,1%8,0%
© Sistrix


Auch wenn Zipfs Gesetz hier und da mal einen Schluckauf hat, ist es doch erstaunlich wie universell es die Regeln des Universums beschreibt. Kein Wunder, dass es so oft mit dem Pareto Prinzip verglichen wird. Beide beschreiben die Realität nahezu mathematisch genau.


Mehr bestätigte Beispiele für Zipfs Gesetz

Alle u.g. Beispiele findest du in der Studie von Newman, M. (2006)

  • Erdbebenstärken
  • Reichsten Menschen der Welt
  • Zitation akademischer Papiere
  • Anzahl verkaufter Bücher
  • Häufigkeit des Auftretens von Nachnamen
  • Erhaltene Telefonanrufe
  • Durchmesser von Mondkratern
  • Anzahl der Menschen, die in Kriegen sterben
Noch mehr Studien und wissenschaftliche Artikel⁺

Was bedeutet das Zipfsche Gesetz für mein Leben?

Wenn man das Zipfsche Gesetz ein mal verinnerlicht, begegnet es einem plötzlich überall im Leben. Nachfolgend drei Beispiele aus meinem Leben und was ich daraus lernen konnte.

  1. Ich verbringe unglaublich viel mehr Zeit mit einer einzigen App als mit all den anderen. Und tatsächlich ist in meinem Fall Youtube die App, die mir die meiste Zeit „raubt“. Wenn ich Youtube entferne, würde das meinen Medienkonsum sofort maßgeblich beeinflussen. Vorausgesetzt, ich ersetze Youtube nicht sofort mit einer anderen süchtigmachenden App.
  2. Ich habe die Suchbegriffe analysiert, mit denen die meisten Besucher diese Website in Google finden. Und tadaa, wer hätte es gedacht, sie folgen dem Zipfschen Gesetz. Ich kann nun versuchen ähnliche Suchbegriffe zu identifizieren oder das Thema tiefer zu erkunden, um hoffentlich einen neuen Platz 1 zu kreieren.
  3. Es gibt Gegenstände in meinem Leben, denen ich unglaublich viel mehr Aufmerksamkeit schenke als dem Rest. Auf Platz 1 ist wahrscheinlich mein iMac, gefolgt vom Smartphone und meiner Casio Uhr am Handgelenk. Danach mein jeweils aktuelles Buch. Das Bewusstsein über mein Verhalten, wird mir helfen weitere Gegenstände aus meinem Leben auszusortieren und noch minimalistischer und entspanner zu leben.

Auch als Unternehmer hat mir die Zipf Verteilung eine wertvolle Perspektive eröffnet.

Nach dem Power Law kassieren die Gewinner eines Marktes in der Regel unverhältnismäßig viel mehr als der Rest (s.o. Coca Cola).

Für mich bedeutet das, dass ich etwas außerdentlich Gutes erschaffen muss, um auch mehrheitlich davon zu profitieren⁺. Wer nur mitschwimmt, überlässt die größten Erfolge dem Marktführer. Studien belegen, dass sich nach den Top 3, alle anderen nur noch 25% des Marktes teilen. Auch hier ist Coca Cola ein prominentes Beispiel (s.o.)

Ausgenommen sind natürlich Hobbies und persönliche Interessen. Die macht man nicht, um von ihnen zu profitieren, sondern um Spaß zu haben und in den Flow zu kommen.

The winner takes it all.

Seth Godin

Das Zipfsche Gesetz hat mir geholfen die Welt mit anderen Augen zu betrachten.


Hat dir mein Beitrag zum Zipfschen Gesetz gefallen? Möchtest du mehr interessante Gesetze und Methoden kennenlernen, die dein Denken und Handeln positiv beeinflussen? Dann trete gern meinem #Doism-Newsletter bei und bleib auf dem Laufenden.


References[+]

Zeen is a next generation WordPress theme. It’s powerful, beautifully designed and comes with everything you need to engage your visitors and increase conversions.