FAQ

FAQ
Aktuell können unsere Decoder Deutsch, Englisch (US+UK), Spanisch und Italienisch transkribieren. Decoder für weitere Sprachen wie befinden sich in der Entwicklung.
Unsere Decoder unterstützen alle gängigen Video- und Audio-Formate, wie z.B. .wav, .mp3, .mp4 und .avi.
Alle unsere Dienste können über eine SOAP Programmierschnittstelle (API) genutzt werden. Die Ergebnisse werden wahlweise als JSON, XML oder SRT Dateien zurückgegeben. Die Schnittstelle benötigt die URL der zu verarbeitenden Datei. Um Zugang zu erhalten, sind Benutzername und Kennwort notwendig. Sollten sich diese Anforderungen für Sie als problematisch erweisen, zögern Sie nicht uns direkt zu kontaktieren.
Deixis, oder auch lexikalische Semantik bezeichnet die Bezugnahme auf Personen, Orte und Zeiten im Kontext die mit Hilfe von deiktischen oder indexikalischen Ausdrücken wie ich, du, dort, hier, morgen, heute erfolgt.Dieser Kontext ist immer abhängig von einem zentralen Bezugspunkt, dem sogenannten “Origo”, bzw. “deiktischem Zentrum” auf welchen der Satz inhaltlich “zeigt”. Würde Daniel jetzt zum Beispiel sagen: “Hey, das ist mein Kaffee!”, wäre Daniel der Origo, die Worte “das” und “mein” die deiktischen Ausdrücke. Deiktische Ausdrücke lassen sich in mehrere Arten aufteilen: Personaldeixis: Ausdrücke wie “ich” und “du” die es nötig machen, dass man weiß wer der Sprecher ist. Objektdeixis: Ausdrücke wie “dieser” und “jener”. Im allgemeinen Demonstrativpronomen die sich auf nahe bzw.ferne Objekte oder Sprecher bzw. Hörer beziehen. Lokaldeixis: Worte wie “hier” und “dort”, prinzipiell Lokaladverbien für die die gleichen Beziehungen wie in der Objektdeixis gelten. Temporaldeixis: Beispiele wären “jetzt” und “dann”, mehr oder weniger jedes Wort das sich auf den Zeitpunkt der Äußerung bezieht. Zu guter letzt Textdeixis, welche eine Besonderheit darstellt, da sie in der Regel nur innerhalb geschriebener Texte vorkommt und sich auf vorangehende bzw. folgende Textinhalte bezieht. Beispiele sind Konstruktionen wie “Was ich sagen will, ist…” oder “Folgendes:”. Das alles klingt sehr kompliziert, läuft aber immer auf die gleiche, simple Frage hinaus: “Worauf bezieht sich dieser Satz?” Kann man das beantworten, kann man Deixis.
Wir verkaufen Lokalisierungen in Form von Untertiteln und werden natürlich nicht müde zu erwähnen, dass es für international und selbst für national agierende Unternehmen lohnenswert ist, ihr Marketing in andere Sprachen übersetzen zu lassen. Unsere Motivation hinter dieser Erwähnung ist natürlich die eigene Überzeugung, Informationen der Welt zugänglicher zu machen und so ganz nebenbei verdienen wir damit natürlich auch unser Geld.Mobile Advertiser „Appia“ hat nun durch eine eigene Studie das Offensichtliche bewiesen: lokalisierte Werbung findet bei Zuschauen mehr Anklang als nicht lokalisierte. Grundidee des Experiments: In drei von Appias Kernmärkten wurden Ads basierend auf der eingestellten Smartphone-Sprache angezeigt. Hiermit sollte der Wert lokalisierter Werbung für Marketing Performance demonstriert werden. Ort und Durchführung des Experiments: Die fünf erfolgreichsten Ads, die über Appia liefen wurden ermittelt und für drei Kernmärkte lokalisiert: Spanien, Frankreich und Deutschland. Für jede der Kampagnen wurde die Kurzbeschreibung in die jeweilige Landessprache übersetzt. Eine Gruppe bekam die lokalisierte Version, die Kontrollgruppe wurde mit den englischen Originalversionen versorgt. Die Performance-Messung erfolgte für beide Gruppen getrennt. Ergebnisse: In 86% der Fälle waren die CTR und die Conversion-Raten der lokalisierten Fassungen signifikant höher als in der englischen Originalversion. Die CTR der übersetzten Fassung lag mit 3,34% gegen 2,35% circa 42% höher. Bei der Conversion Rate stehen 7,47% der Originalversion den 9,08% der angepassten Version gegenüber – eine Steigerung von 22%. Hieran lässt sich gut erkennen, dass die User-Experience und das Engagement durch die Lokalisierung deutlich verbessert wurden und somit zu höheren CTRs und Conversion-Raten geführt haben. Die Autoren und auch wir leiten davon ab, dass es sich immer lohnt, internationale Marketing-Kampagnen zu lokalisieren – vor allem im Bereich Video/Internet-Marketing, wo unglaublich gerne jegliche Art von Werbung als störend wahrgenommen wird. Quelle: http://www.mobilemarketingwatch.com/language-localization-drives-higher-mobile-ad-engagement-40878/

Viel zu wenig wird momentan noch über die Suchmaschinenoptimierung für Videos erzählt. Und das ist kaum verständlich, denn das Video ist mittlerweile DAS Medium um sich und seine Produkte oder Dienstleistungen an den Mann zu bringen. Das geschieht oft auf eher subtile Weise und weniger wie bei einem Werbespot. Große Unternehmen, wie z.B. Nokia, verbinden groß angelegte Marketingaktionen mit Videos, in denen sie ihre Smartphone-Kunden dazu auffordern mit ihren Nokia-Lumia Kameras Fotos für einen Wettbewerb einzureichen – sie bedienen sich also dem ganz klassischen Call-to-Action. Andere wiederum versuchen zum Beispiel mit einem Videochannel den Eindruck von Kompetenz in ihrem Fachgebiet zu vermitteln.

Es gibt praktisch keinen Marketingbereich mehr, in dem Videos keine Rolle spielen. Und gerade deshalb verwundert es mich, dass so wenig über die Suchmaschinenoptimierung von Videos gesprochen wird. Aus diesem Grund gibt´s hier von mir jetzt einen kleinen Video SEO

Einsteigerguide:

Über Google´s Hummingbird Update letztes Jahr habe ich euch ja schon genaueres erzählt. Wenn ihr´s noch nicht gesehen habt, findet ihr den Link zum Video unten in der Videobeschreibung. WENN ihr es schon gesehen habt, ahnt ihr vielleicht schon worum es geht. Der erste Tipp, den ich euch nämlich gebe ist: Bevor ihr überhaupt über irgendwelche SEO-Tricks nachdenkt, steckt eure Energie lieber in die INHALTE des Videos. Google konzentriert sich immer mehr auf passende Inhalte, und das solltet ihr definitiv berücksichtigen. Keywords sind immer noch wichtig, aber das wird weniger. Aber dazu gleich noch mehr. Also: kümmert euch darum, dass euer Video einfach gut ist! Klar, Keywords sind noch nicht tot. Wenn ihr euer Video jetzt hochladet seht zu, dass ihr einfache SEO-Regeln befolgt. Die Wortfolge, die den Inhalt eures Videos am besten beschreibt, sollte an folgenden Stellen vorkommen: a. Als gesprochenes Wort im Video, b. Im Titel, c. In der Beschreibung und d. Als Tags.

„Wieso als gesprochenes Wort? Das kann Google doch gar nicht erfassen“, sagt ihr jetzt vielleicht vor euch hin. Falsch! Denn ihr gestaltet eure Video SEO noch um einen großen Schritt effektiver, indem ihr zu eurem Videomaterial Transkripte einbindet. Zum Beispiel in Form von Untertiteln. Und klar, Youtube bietet mittlerweile selber einen automatischen Untertitelservice an. Die Qualität der Spracherkennung von Youtube schwankt aber so dermaßen in ihrer Qualität, dass es für professionelle Video SEO nicht wirklich ausreicht. Besser ist hier ein Untertitel Service, der im besten Fall noch eine menschliche Nachbearbeitung beinhaltet. So seid ihr auf der sicheren Seite. Denn jetzt habt ihr die Gewährleistung, dass Google bei der Suche nach passenden Ergebnissen auch euren kompletten Video-Inhalt durchsuchen kann. Und wenn der stimmt, dann habt ihr in Kombination alles richtig gemacht.

Diese drei Tipps ersetzen natürlich auf keinen Fall eine Marketingabteilung, die Arbeit eines Redakteurs, die Arbeit eines gelernten Sprechers und die fähiger SEO-Leute. Aber für den Anfang reicht es vielleicht aus, eure Videos ein wenig zu pushen! Bei Fragen dazu wendet euch gerne an uns. Dafür sind wir da!
Vorab, so etwas wie ein “Videodateiformat” gibt es eigentlich nicht, stattdessen existieren Video-Codecs und Videocontainer.

Videos bestehen aus vielen Bildern, die schnell genug hintereinander abgespielt werden, sodass die Illusion von Bewegung entstehen kann. Jedes dieser Bilder besteht wiederum aus Bildpunkten, den Pixeln.

Im Rohzustand sehen diese Bilddateiein für einen Computer nun z.B. so aus: 1. Pixel, Rot; 2.Pixel, Rot; 3. Pixel Grün etc.. Das braucht ziemlich viel Platz und genau deshalb gibt es Codecs.

Codecs codieren bzw. decodieren diese Bilder, so dass es weniger Daten braucht um dasselbe Bild zu beschreiben. Eine einfache Methode für das vorherige Beispiel wäre die Beschreibung als “2 rot, 1 grün”.

Weiterentwickelte Codes achten darauf, welche Teile sich von einem Bild zum nächsten ändern und der aktuelle Goldstandard der Videocodecs, h.264, erkennt, welche Bildelemente für den Betrachter uninteressant sind und regelt deren Qualität dementsprechend runter.

Der Grund für die Menge an verschieden Videocodecs ist also wenig überraschend technischer Fortschritt. Aber wo kommen da jetzt die verschiedenen Dateiendungen ins Spiel?

Die Endung einer Videodatei gibt in der Regel einen Hinweis auf die Art des Containers. Container sind Dateien, in denen die codierten Videodateien, dazugehörende Tonspuren sowie andere Elemente, wie z.B. Untertitel, Metadaten, Menüstrukturen oder ähnliches zusammengeführt werden. Nicht alle Container unterstützen alle diese Funktionen, da sie oft unterschiedlichen Ansprüchen genügen müssen.

Apples .mov z.B. arbeitet besonders gut mit deren Videoschnittprogrammen zusammen, Microsofts .asf wurde speziell für Videostreaming entwickelt und der am meisten verbreitete Container, .mp4, arbeitet unter der Prämisse “bestes mögliches Verhältnis Dateigröße/Qualität bei größtmöglicher Kompatibilität”. Erwähnenswert ist hier noch der .mkv Container, der es sich zur Aufgabe gemacht hat, jedes denkbar mögliche Feature zu unterstützen.

Ihnen allen ist aber gemein, dass die Art der Video- und Audiokodierung nicht fest vorgegeben ist. Auch, wenn sich h.264-Video und mp3-Audio als Quasi-Standard etabliert haben besteht immer die Möglichkeit, dass eine Container-Datei davon abweicht, egal auf welche drei Zeichen sie endet. Nichtsdestotrotz solltet ihr euch von unbekannten Dateiendungen bei Videos nicht irritieren lassen, der Inhalt als solches ist oft fast identisch.
Ich hatte ja schon mal in einem anderen Video angesprochen, welche Probleme es für automatische Spracherkennung geben kann. Auf diese Probleme will ich heute ein bisschen näher eingehen und Euch eine neue Lösung vorstellen, die Spracherkennung dabei unterstützen soll, das in den Griff zu bekommen.

Wenn wir etwas Gesagtes hören, ist es für uns ganz selbstverständlich, dieses Gesagte zu verstehen. Für Computer ist das bekanntermaßen nicht so einfach wie für uns und auch nach jahrzehntelanger Forschung gibt es immer noch keine 100-prozentig zuverlässige Spracherkennung. Sie funktioniert zwar sehr gut wenn deutlich gesprochen wird und wenn es keine weiteren Geräusche neben dem Sprachsignal gibt, aber es gibt immer noch drei große Probleme.

Das erste Problem ist die Tatsache, dass wir Wörter nicht klar getrennt aussprechen – also, so, abgehackt, wie, ich, jetzt, spreche, sprechen, wir, einfach, nicht – sondern wir sprechen in einem kontinuierlichen Fluss.

Das zweite Problem ist der wunderbare Umstand, dass eine sprachliche Äußerung mehrere Bedeutungen haben kann. Es gibt zum Beispiel jede Menge Wörter, die verschiedene Bedeutungen haben, aber gleich klingen, wie zum Beispiel das Rad und der Rat. Und nur aus dem Zusammenhang heraus kann man erkennen, welche Bedeutung gemeint ist.

Drittens kann ein und dieselbe Äußerung, akustisch betrachtet, sehr unterschiedlich klingen. Wir nehmen das zwar nicht so extrem wahr, aber es gibt viele verschiedene Ursachen dafür. Ist der Sprecher angespannt, redet er sachlich oder emotional, spricht er mit Dialekt, gibt es Hintergrundgeräusche wie Verkehr, Baulärm oder Stimmen von anderen Personen … das alles hat Einfluss auf das Sprachsignal und deshalb kann es je nach Situation anders klingen.

Die Probleme der automatischen Spracherkennung sind vergleichbar mit den Problemen die wir haben, wenn wir eine Fremdsprache lernen. Am Anfang sind wir oft mit normal schnell sprechenden Muttersprachlern überfordert und verstehen, im wahrsten Sinne, kein Wort. Spricht der Muttersprachler aber langsam und deutlich, dann können wir ihn besser verstehen.

Zumindest für das Problem der Hintergrundgeräusche gibt es seit kurzem eine Lösung: Die Firma VocalZoom aus Israel hat ein spezielles Mikrofon entwickelt, das bei der Spracherkennung nicht nur den Ton aufzeichnet, sondern gleichzeitig auch den Mundbereich des Sprechers mit einem optischen Sensor “abtastet”. Das Mikrofon nimmt nur innerhalb dieses Bereichs auf und isoliert die Stimme des Sprechers von allen anderen Geräuschen. Dadurch wird das Sprachsignal klarer und kann so natürlich besser vom Computer erkannt werden.

An sich ist die Technologie der automatischen Spracherkennung mittlerweile hoch entwickelt. Sprunghafte Fortschritte passieren nicht mehr allzu häufig und deshalb ist der Ansatz von VocalZoom, die äußeren Umstände für Spracherkennung zu verbessern, ziemlich geschickt.
Gerne können Sie unsere Software unverbindlich testen. Senden Sie uns einfach einen Link zu Ihrer Datei, z.B. ein Video auf YouTube (max. 10 min/50 MB). Bitte nutzen Sie dazu unser Kontakt-Formular.
Eine akkurate Erkennung hängt natürlich in erster Linie von der Qualität des Audio-Materials ab, aber auch davon, wie deutlich gesprochen wird. So nähert sich die Erkennung von Nachrichtensendungen mit trainierten Sprechern tatsächlich den 100% an. Unser Fokus liegt darauf, sicherzustellen, dass sämtliche relevante Inhalte – sprich Keywords, Namen etc. – korrekt erkannt werden. Hierzu trainieren wir unsere Spracherkennung für spezielle Anwendungsdomänen.
Mit dem Domain-Training spezialisieren wir unsere Spracherkennung auf unterschiedliche Anwendungsbereiche. Universelle Spracherkenner, wie sie bei YouTube oder Google zum Einsatz kommen, sind nicht darauf ausgelegt, Fachvokabular zu erkennen. Um die Erkennung von fachlichen Inhalten zu gewährleisten, trainieren wir unsere Sprachmodelle auf die spezifischen Domänen unserer Kunden und erhöhen so die Erkennungsraten deutlich. Sprachmodelle dienen bei der automatischen Spracherkennung als Informationsquelle, um die Wahrscheinlichkeit von Wortfolgen zu berechnen. Diese sind abhängig von Fachbereichen und Themen. Über statistische Informationen zur Häufigkeit eines Wortes und seinem Auftreten in Kombination mit anderen Wörtern wählt das Sprachmodell das wahrscheinlichste Wort aus. Die statistischen Informationen werden im Domain-Training gesammelt. Das Domain-Training ist ein maschinelles Lernverfahren. Über die Analyse von Beispiel Texten aus der Domäne erkennt das Sprachmodell Gesetzmäßigkeiten und kann danach unbekannte Daten durch Verallgemeinerung beurteilen. So wird die Zuverlässigkeit der Hypothesenbildung für domänenspezifische Wortfolgen und Wortkombinationen erhöht und die Erkennungsergebnisse verbessert. Mit dem Domain-Training haben wir bereits Sprachmodelle für Fächer wie Mathematik, Chemie, Architektur oder Technik adaptiert. Unsere Decoder können innerhalb weniger Wochen auf jede Domäne trainiert werden.
Grundsätzlich bedeutet Stemming, oder auch “Stammformreduktion”, dass ein Wort auf seine Grundform zurückgeführt wird, aus “ging” wird “gehen”, aus “stand” wird “stehen” uns so weiter.Das ist besonders in der Textanalyse wichtig, da so vermieden wird, das ein Wort als verschiedene Wörter erkannt wird, nur weil es konjugiert oder dekliniert wurde. Sprechen Computerlinguisten und Artverwandte von “Stemming” meinen sie allerdings oft den Porter-Stemmer-Algorithmus. Lemmatisierung und dieser Alogithmus sind zwei der verbreitetsten Methoden für diese Rückführung. Der Porter-Stemmer-Algorithmus verändert und verkürzt die Suffixe von Worten nach einem Satz von Regeln, welche sich von Sprache zu Sprache unterscheiden. Aus dem Englischen Wort “libraries” wird aufgrund dieser Verkürzungsregeln am Ende “librari” und da zu den Regeln auch eine “y nach i” Transformation gehört, wird auch aus “library” “librari”. Hier zeigt sich sehr deutlich, dass es hier nicht darum geht Wörter auf ihre Grundform zu bringen, sondern einfach nur darum, dass die Anzahl eines Wortes innerhalb eines Textes korrekt erkannt wird. Lemmatisierung versucht nun tatsächlich ein Wort auf seine Grundform, sein “Lemma”, zurückzubringen. Dies setzt oft eine Vorverarbeitung des Textes durch zum Beispiel Part-of-Speech-Tagging und anderer Kontext-Analysemethoden vorraus. Offensichtlich ist Lemmatisierung also deutlich aufwendiger als “Stemming”, liefert aber oft auch deutlich bessere Ergebnisse. Insbesondere unregelmäßige Flexionen wie “gut” und “besser” werden von einem Lemmatisierer als zu einer Gundform gehörend erkannt, während ein Stemmer hier keine Gemeinsamkeiten findet.
Named Entity Recognition oder auch Entity Extraction ist ein Prozess mit dem aus einem Text eindeutige Referenzen wie Eigennamen, Orte, Zeiten oder ähnliches herausgezogen und klassifiziert werden. Diese heißen Entitäten.Füttert man ein Entity Extraction System zum Beispiel mit dem Satz:

“Klaus arbeitet seit 2013 bei vetail-x.com.”

erkennt es die Entitäten “klaus”, “2013” und “vetail-x.com” und markiert diese entsprechend als “Person”, “Jahr” und “Unternehmen”. Mit einer Genauigkeit von über 93% kommen aktuelle Systeme bis auf 3% an die Leistung von Menschen heran.

Um das zu erreichen gibt es zwei verschieden Ansätze.

Die Verwendung von Formalen Grammatiken, d.h. die Erstellung eines komplexen Regelwerkes um zu erkennen ob ein Wort eines Entität ist, führt oft zu sehr guten Ergebnissen ist aber extrem arbeits- und zeitaufwendig und oft auf eine bestimmte Art von Text und/oder Thema spezialisiert. Ein Jahr zu erkennen ist z.B: noch relativ einfach; “Vier Zahlen, vermutlich zwischen 1000 und 3000”, eine Regel um einen Unternehmenname zu identifizieren wird dann aber schon sehr viel komplizierter.

Statistische Methoden wie Machine Learning sind der momentane Standard, da ihr Training deutlich weniger Aufwand erfordert und dadurch auch leichter mehrere Arten von Eingaben analysiert werden können. Hier wird zwischen der Verwendung von annotierten Trainingsdaten, dem überwachten Lernen, und der Verwendung von nur teilweise annotierten Daten, dem semi-überwachten Lernen unterschieden. Ersteres liefert in der Regel bessere Ergebnisse, braucht aber mehr Vorbereitung als zweiteres. Dem System werden hier große Mengen an schon korrekt analysierten Texten gegeben, aus welchen es lernt, wann welche Entitäten gemeint sind.
Was ihr im Video seht, ist ein sogenanntes Spektrogramm, mehr oder weniger genau das, was ein Computer wahrnimmt, wenn man ihm ein Tonsignal zuführt, in diesem Fall meine Stimme. Das Spektrogramm stellt auf einer von links nach rechts verlaufenden Zeitachse die jeweiligen Tonfrequenzen dar. Je heller das Spektrogramm, umso intensiver ist die jeweilige Frequenz.

Was dem System nun erlaubt, einzelne Wörter zu erkennen, ist die Tatsache, dass jedes Phonem, die Lauteinheiten aus denen sich Sprache zusammensetzt, einer eindeutigen Kombination aus Frequenzen entspricht. Die Muster die die Vokale a,e,i,o und u sind, wie ihr seht auch mit untrainiertem Auge klar voneinander zu unterscheiden. Bei Lauten wie s, f, n oder sch wird es allerdings schon etwas schwerer.

Computer wissen, welche Muster welchen Lauten entsprechen, und können darauf trainiert werden, diese Muster zu erkennen und zuzuordnen.

Das erklärt auch, warum deutlich gesprochener Text mit wenigen Hintergrundgeräuschen in der Regel viel besser erkannt wird. Die Lautgrenzen sind dann deutlich ausgeprägter, und Störgeräusche die möglicherweise Frequenzen belegen, die mit dem aktuellen Laut nichts zu tun haben, sind ebenfalls kein Problem.
Sprachtechnologie ist, wenn ich in mein Smartphone spreche und es mir antwortet … nicht ganz! Bei dem Begriff „Sprachtechnologie“, kommen uns gemeinhin Siri und sprachgesteuerte Navis im Auto in den Sinn. Beides beruht weitestgehend auf Spracherkennung. Aber tatsächlich ist Sprachtechnologie noch viel mehr als das. Sprachtechnologie verfolgt allgemein das Ziel, uns das Leben und den Umgang mit Technik und Technologien zu erleichtern. Das gilt insbesondere für die Kommunikation zwischen Mensch und Computer. Sie soll für uns so natürlich verlaufen, wie die Kommunikation mit anderen Menschen. Die Computerlinguistik erforscht deshalb, wie Computer natürliche Sprache verarbeiten können und die Ergebnisse dieser Forschung wendet die Sprachtechnologie dann praktisch an.

In den letzten Jahren kamen immer mehr und immer komplexere informationstechnische Anwendungen auf den Markt. Einige von ihnen sind heute fest in unseren Alltag integriert. Dadurch steigt auch der Bedarf, effektive und natürliche Schnittstellen zu entwickeln, damit die Bedienung dieser komplexen Geräte für uns möglichst einfach ist. Und da Sprechen für uns die einfachste Form der Kommunikation ist, wird Sprachsteuerung immer mehr zur bevorzugten Bedienungsart von Technikgeräten. Bestes Beispiel hierfür sind persönliche Assistenten im Smart Phone. Wir müssen nur noch reinsprechen und den Rest erledigen sie. Das nächste „große Ding“ in diesem Bereich werden sicherlich sogenannte Smart TVs sein, Fernseher, die sich ohne Knöpfe und nur mit natürlicher Sprache bedienen lassen.

Intuitive Bedienung von Technikgeräten ist aber, wie gesagt, nicht das einzige Anwendungsfeld von Sprachtechnologie in unserem Alltag. In unserer Gesellschaft spielen Wissen und Information eine zentrale Rolle und Sprache ist sozusagen das Material, aus dem sie gemacht sind. Um die Masse der Informationen, die im Internet zur Verfügung stehen, zu strukturieren, indexieren und durchsuchen zu können, werden sprachtechnologische Methoden eingesetzt. Bei vetail-x.com z.B. indexieren wir Videodaten mittels Spracherkennung, das heißt, der gesprochene Video-Inhalt wird in Text umgewandelt und so werden diese Informationen für Suchmaschinen zugänglich und durchsuchbar. Dadurch können z.B. relevante Videos zu einem bestimmten Thema besser gefunden werden. Ein wahrer Klassiker unter den Einsatzgebieten von Sprachtechnologie ist die automatische Korrektur von Tipp- und Grammatikfehlern in Texteditoren. Nie wieder flasch geschiebene Wörtern und Texte!

Eine etwas „modernere“ Anwendung sind Stimmabdrücke, die Passwörter oder PIN-Codes ersetzen. Dahinter steckt eine Technologie, die Sprachbiometrie heißt. Jeder Mensch hat ein einmaliges Stimmprofil und Stimmen unterscheiden sich in bestimmten akustischen Merkmalen. Die werden abgeglichen und so wird sichergestellt, dass es auch wirklich ich bin, die mein Handy entsperren will. Man kennt das: Über den ganzen Tag verteilt erreichen uns Nachrichten über unterschiedliche Kanäle, mit unterschiedlichen Aspekten und Schwerpunkten. Wie soll man das alles lesen und auch noch Zeit für irgendetwas anderes finden? Auch hier gibt es Lösungen aus der Sprachtechnologie. Automatische Textzusammenfassung stellt die wichtigsten Textteile zusammen oder generiert sogar neue Versionen aus den relevanten Informationen eines Textes. Vor wenigen Wochen hat Yahoo die App „Yahoo News Digest“ herausgebracht. Die fasst die wichtigsten Nachrichten des Tages aus unterschiedlichen Quellen zusammen und präsentiert die Schlüsselinformationen zu den wichtigsten Themen. Man braucht also keine ausführlichen Artikel mehr zu lesen, um gut informiert zu sein.

Sprachtechnologie integriert sich immer mehr in unseren Alltag und in der Zukunft wird sie die Schlüsseltechnologie schlechthin sein, nicht nur als Bindeglied zwischen Mensch und Maschine, sondern auch um der stetig wachsenden Informationsmenge Herr zu werden und sie sinnvoll nutzen zu können.
Können Computer erkennen, was meine Einstellung zu dem ist, worüber ich gerade spreche? Oh ja, das können sie! Und zwar mit Hilfe von Sentiment Analysis / Opinion Mining! Wie das Ganze funktioniert, das erklärt euch Lucas heute in unserem aktuellen Vlog! Viel Spaß!

Sentiment Analysis, oder auch Opinion Mining, ist ein relativ junges Forschungsgebiet, hat aber schon für einigen Wirbel gesorgt. Wie der Name nahelegt, wird hier versucht subjektive Meinungen zu bestimmten Themen aus vorhandenen Daten zu ziehen. Um das zu erreichen wird ein Text, sei es ein Forenpost, eine Shop-Bewertung oder eine transkribierte Audio- oder Video Datei, auf Worte und Phrasen mit einer positiven oder negativen Konnotation untersucht. Diese werden gegeneinander hochgerechnet und am Ende weiß das System dann, was die Person von dem jeweiligen Thema hält. Aber woher weiß das Tool nun, was positiv und was negativ ist?

Viel, viel Training.

Zum Glück gibt es inzwischen sehr viele Webseiten, amazon, imdb, etc., die ihre Bewertungstexte mit Zahlenwerten versehen. Das automatische Auslesen dieser Text / Zahlen Paare ergibt ein verhältnismäßig gutes Bild darüber, welche Wörter und Phrasen in welcher Art von Bewertung auftauchen.

Investiert man dann noch ein wenig in die händische Nachbearbeitung, um zum Beispiel den Unterschied zwischen “scheiße” und “scheiße gut” rauszuarbeiten, sind inzwischen Trefferquoten von bis zu 85% möglich. Das bedeutet, aktuelle Sentiment Analysis Systeme erkennen in 85% der Fälle die korrekte Konnotation eines Textes. Das klingt jetzt erstmal nicht nach besonders viel, ist aber tatsächlich besser als die Leistung die Menschen liefern. Wir sind uns nämlich nur in 79% aller Fälle über die subjektive Meinung eines Textes einig.

Kombiniert mit einem simplen Webcrawler ist Sentiment Analysis also für jeden, der wissen möchte, was die Öffentlichkeit von seinem Produkt hält eine Möglichkeit dies mehr oder weniger live zu erfahren. Die Tatsache, dass das momentan am besten performende Sentiment Analysis System Open Source ist und der einzige wirkliche Arbeitsaufwand das Training ist führt dazu, dass diese Informationen nur eine geringen finanziellen Aufwand benötigen, gerade für junge Unternehmen aber oft unbezahlbar sind.