Jan Schejbal

Jump to ENGLISH VERSION -- zum Download springen -- jump to download

Worthäufigkeiten

Beim Lernen von Vokabeln erscheint es sinnvoll, die wichtigsten Wörter zuerst zu lernen. Doch was sind die wichtigsten Wörter? Ein einfacher und halbwegs geeigneter Maßstab hierfür ist die Häufigkeit, mit der ein Wort vorkommt. Der Wortschatz der Universität Leipzig enthält auch Angaben über die Häufigkeit von Wörtern. Im dazugehörigen internationalen Wortschatzportal CORPORA gibt es entsprechende Listen auch für Fremdsprachen, wahlweise auch zum Download. Dieses Projekt und CORPORA verwenden unterschiedliche Methoden und haben verschiedene Ziele. Jeder muss selbst entscheiden, welches für ihn am Besten geeignet ist, oder einfach beide nutzen!

Da ich mir nicht sicher war, ob die Größe der Stichprobe ausreicht und ob durch die Unterscheidung zwischen Groß- und Kleinschreibung das Ergebnis nicht verfälscht wird, habe ich mich entschlossen, ein ähnliches Projekt zu machen. Hierfür verwende ich Texte aus der Wikipedia. Die Wikipedia kann leicht in einem maschinenlesbaren Format heruntergeladen werden. Mit einem Python-Skript, welches hier heruntergeladen werden kann, werden aus einem Wikipedia-Dump die Texte extrahiert. (Es wird der Dump "pages-articles.xml.bz2" verwendet. Das Skript liest die komprimierte Form, so wie man sie herunterladen kann!) Anschließend werden die Texte in Wörter aufgeteilt (der Text wird an Whitespaces getrennt), angehängte Punkte und Kommata entfernt, die Wörter in Kleinschreibung umgewandelt und die so ermittelten Wörter gezählt. Es werden nur Wörter berücksichtigt, welche sich ausschließlich aus dem als "Alphabet" definierten Zeichen zusammensetzen. Da das Skript auf dem Quelltext der Wikiseiten arbeitet, ist dies nötig, denn so werden so auch (fast) alle Tags und Befehle gefiltert. Die Liste wird anschließend ausgegeben und kann sortiert werden.

Diese einfache Vorgehensweise hat auch Nachteile, z. B.:

Manche Befehle/Tags bleiben hängen
Die Diversität der Stichprobe ist begrenzt, da es sich ausschließlich um Lexikontexte
Groß- und Kleinschreibung werden nicht unterschieden
Es landen schonmal fremdsprachige Wörter in der Liste

Dafür hat man eine relativ große Stichprobe mit Texten zu verschiedenen Themen und vor allem: Mit wenig Aufwand kann eine solche Wortliste für jede Sprache erstellt werden, für die es einen Wikipedia-Dump gibt! Man könnte sicher auch Wikbooks oder andere Projekte als Datenquelle nutzen.

Das Skript darf für die private nichtkommerzielle Nutzung frei heruntergeladen und verwendet werden. Das Skript wird so wie es ist und ohne irgendwelche Garantien zur Verfüung gestellt, Benutzung auf eigene Gefahr. Bitte daran denken, dass ggf. das Alphabet angepasst werden muss!

Fertige Top-5000-Wortlisten gibt es hier:

Word frequency

For learning vocabulary, it makes sense to learn the most important words first. But what are the most important words? A simple and reasonably suitable measure for that is the frequency with which it a word used. The University of Leipzig Lexicon also contains information about the frequency of words. The corresponding international lexicon portal CORPORA has similar lists also for foreign languages, which can also be downloaded. This project and CORPORA use different methods and have different aims. Look which one suits you best or use both!

As I was not sure if the size of their sample is large enough and if including capitalization does not distort the result, I decided to run a similar project. For this, I am using texts from Wikipedia. Wikipedia can be easily downloaded in a machine-readable format. With a Python script, which can be downloaded here, the texts are extracted from the Wikipedia dump file. (I am using the "pages-articles.xml.bz2" dump. The script expects the compressed form, as it can be downloaded!) Subsequently, the text is divided into words (split on whitespace characters), trailing commas or periods are removed, the words are converted to lowercase and the resulting words are counted. Only words consisting solely of the characters specified as "alphabet" are considered. As the script works on the raw source code of the Wikipedia articles, this is required, as it also removes (nearly) all tags and commands. The list is then output and can be sorted.

Of course, this approach also has disadvantages:

Some tags/commands remain
The diversity of the sample is limited, as all texts are encyclopedic texts
Capitalization is ignored
Foreign language words can appear in the list

On the other hand, you have a large sample size and, most importantly: You can create such a wordlist with very little work for any langage for which a Wikipedia dump exists! Surely you could also use Wikibooks or similar sources as input.

The script can be downloaded and used freely for private non-commercial usage. It is provided "as is" without any warranties. Use at your own risk. Please remember that you might have to change the alphabet!

Finished Top-5000-wordlists can be downloaded here: