Was ist Deixis? – Eine einfache Erkärung

Deixis, oder auch lexikalische Semantik bezeichnet die Bezugnahme auf Personen, Orte und Zeiten im Kontext die mit Hilfe von deiktischen oder indexikalischen Ausdrücken wie ich, du, dort, hier, morgen, heute erfolgt.

Dieser Kontext ist immer abhängig von einem zentralen Bezugspunkt, dem sogenannten “Origo”, bzw. “deiktischem Zentrum” auf welchen der Satz inhaltlich “zeigt”. Würde Daniel jetzt zum Beispiel sagen: “Hey, das ist mein Kaffee!”, wäre Daniel der Origo, die Worte “das” und “mein” die deiktischen Ausdrücke.

Deiktische Ausdrücke lassen sich in mehrere Arten aufteilen:

Personaldeixis: Ausdrücke wie “ich” und “du” die es nötig machen, dass man weiß wer der Sprecher ist.

Objektdeixis: Ausdrücke wie “dieser” und “jener”. Im allgemeinen Demonstrativpronomen die sich auf nahe bzw.ferne Objekte oder Sprecher bzw. Hörer beziehen.

Lokaldeixis: Worte wie “hier” und “dort”, prinzipiell Lokaladverbien für die die gleichen Beziehungen wie in der Objektdeixis gelten.

Temporaldeixis: Beispiele wären “jetzt” und “dann”, mehr oder weniger jedes Wort das sich auf den Zeitpunkt der Äußerung bezieht.

Zu guter letzt Textdeixis, welche eine Besonderheit darstellt, da sie in der Regel nur innerhalb geschriebener Texte vorkommt und sich auf vorangehende bzw. folgende Textinhalte bezieht. Beispiele sind Konstruktionen wie “Was ich sagen will, ist…” oder “Folgendes:”.

Das alles klingt sehr kompliziert, läuft aber immer auf die gleiche, simple Frage hinaus: “Worauf bezieht sich dieser Satz?” Kann man das beantworten, kann man Deixis.

 

Der Unterschied zwischen Lemmatisierung und Stemming

Grundsätzlich bedeutet Stemming, oder auch “Stammformreduktion”, dass ein Wort auf seine Grundform zurückgeführt wird, aus “ging” wird “gehen”, aus “stand” wird “stehen” uns so weiter.

Das ist besonders in der Textanalyse wichtig, da so vermieden wird, das ein Wort als verschiedene Wörter erkannt wird, nur weil es konjugiert oder dekliniert wurde.

Sprechen Computerlinguisten und Artverwandte von “Stemming” meinen sie allerdings oft den Porter-Stemmer-Algorithmus.

Lemmatisierung und dieser Alogithmus sind zwei der verbreitetsten Methoden für diese Rückführung.

Der Porter-Stemmer-Algorithmus verändert und verkürzt die Suffixe von Worten nach einem Satz von Regeln, welche sich von Sprache zu Sprache unterscheiden.

Aus dem Englischen Wort “libraries” wird aufgrund dieser Verkürzungsregeln am Ende “librari” und da zu den Regeln auch eine “y nach i” Transformation gehört, wird auch aus “library” “librari”.

Hier zeigt sich sehr deutlich, dass es hier nicht darum geht Wörter auf ihre Grundform zu bringen, sondern einfach nur darum, dass die Anzahl eines Wortes innerhalb eines Textes korrekt erkannt wird.

Lemmatisierung versucht nun tatsächlich ein Wort auf seine Grundform, sein “Lemma”, zurückzubringen. Dies setzt oft eine Vorverarbeitung des Textes durch zum Beispiel Part-of-Speech-Tagging und anderer Kontext-Analysemethoden vorraus.

Offensichtlich ist Lemmatisierung also deutlich aufwendiger als “Stemming”, liefert aber oft auch deutlich bessere Ergebnisse.

Insbsondere unregelmäßige Flexionen wie “gut” und “besser” werden von einem Lemmatisierer als zu einer Gundform gehörend erkannt, während ein Stemmer hier keine Gemeinsamkeiten findet.