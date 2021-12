Digitale Spracherkennung – Wie gut versteht der Computer Schweizerdeutsch? Töggl.ch fertigt Transkriptionen von Aufnahmen in den Schweizer Dialekten an. Wir testen das mit «Tschugger», einer unbekannten Freiheitsheldin – und Alain Berset. Matthias Schüssler

Sali zämu: Ist eine Walliser Software dem Walliser Tschugger gewachsen? SRF

Computer und Handys verstehen uns Menschen inzwischen recht gut. Sie nehmen gesprochene Aufträge wie «Hey Siri, stell den Wecker morgen um 6 Uhr» entgegen. Und sie sind gar nicht so schlecht darin, längere Wortmeldungen oder Gespräche automatisch zu verschriftlichen. In Microsoft Office gibt es seit einiger Zeit eine solche Funktion, die in unserem Test ordentlich abgeschnitten hat.

Das Verständnis – respektive die Fähigkeit, gesprochenes Wort in Text umzuwandeln – hat jedoch Grenzen. Es funktioniert meist nur bei weitverbreiteten Sprachen wie Englisch, Französisch oder Hochdeutsch. An Mundart und Dialekten scheitern die Systeme, weil diese weniger gebräuchlich und variantenreich sind. Im Fall der Schweizer Idiome kommt als Problem hinzu, dass es keine formalisierte Rechtschreibung gibt. Das macht es schwieriger, Maschinen beizubringen, wie ein Dialekt zu verschriftlichen wäre.

Doch auch das Schweizerdeutsche soll der maschinellen Transkription nicht weiter Widerstand leisten. Ein Webdienst verspricht, er erkenne «problemlos alle Schweizer Sprachen und Dialekte». Er stammt von Recapp, einem auf Spracherkennung spezialisierten Unternehmen, das seine Systeme mit Audiodateien von SRF trainieren konnte. Wie die «Handelszeitung» berichtet, kommt im Gegenzug beim SRF die Recapp-Software zum Einsatz.

Die Software gibt es für Parlamente und Institutionen (Mediaparl.ch) und unter Töggl.ch in einer Variante für Unternehmen und Privatanwender. Wie gut Letztere funktioniert, zeigt ein Test an drei Beispielen:

«Tschugger»

Da das Start-up Recapp aus dem Wallis kommt, kann die erste Aufgabe nur darin bestehen, eine Passage in jenem Schweizer Dialekt zu verschriftlichen, mit dem selbst viele Landsleute gewisse Mühen bekunden. Und was läge da näher, als Töggl eine Szene aus der SRF-Serie «Tschugger» vorzusetzen? Der Ausschnitt stammt aus der ersten Folge, in der der Walliser Bax auf die Baseldeutsch sprechende Fedpol-Inspektorin Annette Brotz trifft.

Das ist der Dialog, wie ich ihn selbst transkribiert habe. Zur Entschuldigung, wie ich die beiden Dialekte verschriftlicht habe, sei gesagt, dass ich selbst Züritüütsch spreche:

«S Wallis halt … Hesch em scho aaglütte? Übermorn sött er zrugg si, jä genau … Jä. Und sunsch lüütisch aa. Tschüss, Erasmo.

Das isch im Fall en Behindereteparkplatz.»

«Lüeg, hie im Wallis seit me däm Parkplatz für Mänsche mit besundere Bedürfnis. Und diesche hie hät im Momänt es bschunders Bedürfnis.

Ah, und ich bi Tschugger.»

Für diese Szene liefert Töggl folgende Transkription:

«Das Wallis halt. Hast du mir schon angerufen? Übermorgen sollte zurück. Ja und sonst weit. Ana ist im Fall Behindertenparkplatz. Schau im Wallis hat man dem Parkplatz für Menschen mit besonderen Bedürfnissen und das ist ja ein besonderes Bedürfnis aha.»

Zwei Dinge fallen auf: Erstens fehlen in der Übersetzung mehrere Passagen komplett, insbesondere die Proklamation von Bax, er sei Polizist. Ein gewisses Problem sind in dem Fall die Hintergrundgeräusche, die eine Transkription erschweren: Die Qualität der automatischen Verschriftlichung hängt direkt mit der Aufnahmequalität zusammen. Ohne ein gutes Mikrofon und eine saubere Aufnahme sind keine brauchbaren Resultate zu erhoffen.

Allerdings gibt es in der Szene wenige Nebengeräusche; insbesondere der Satz «Ah, und ich bi Tschugger» ist trotz dezenter Hintergrundmusik leicht zu verstehen. Es ist zu vermuten, dass bei dem Satz das Vokabular ein Problem ist und das System mit der umgangssprachlichen Bezeichnung für Polizist nichts anfangen kann.

«Babette von Interlaken»

Um Töggl unter Idealbedingungen zu testen und gleichzeitig herauszufinden, wie gut Töggl meine Stimme versteht, habe ich ihm einen Radiobeitrag zu Babette von Interlaken vorgesetzt. Er dreht sich um eine Frau, die eine Schweizer Freiheitskämpferin und Kultfigur sein könnte, die einer Huldigung Umberto Ecos zum Trotz jedoch unbekannt geblieben ist.

Die Software rechnet über Credits ab, wobei ein Credit einen Franken plus Mehrwertsteuer kostet. Ausserdem muss man vorab einige Angaben zur Art und Qualität der Aufnahme machen. Screenshot: schü

Der Anfang ist ein Zitat Ecos, auf Zürichdeutsch übersetzt:

«D Babette isch in Lug und Trug gebore.

Si isch under Süüfer, Räuber und Mörder uufgwachse. Si hätt de Lieb Gott nur us dene Flüech kännt, wo si ständig ghört hät.

I de Scharmützel vo Luzern händ di Radikale es paar Katholike us de Urkantön umbbracht. Und do isch si s gsi – wo ihne s Herz useriisse und d Auge uusstäche laa hät.

D Babette hät ihres lange blonde Haar im Wind weihe laa, so wie di grossi Huere vo Babylon.»

Die Software transkribiert das wie folgt:

«Babette ist in Lug und trug geboren, sie ist unter Saufen, Räuber und Mörder aufgewachsen. Sie hätten lieb Gott nur aus diesen Fluch kannt, wo sie ständig gehört hat. In der Scharmützel von Luzern haben die radikalen ein paar Katholiken aus der Urkantone umgebracht und da ist sie gewesen, wo in ein Herz herausgerissen und die Augen ausstechen lassen hat. Babette hat ihr langen blonden Haaren im Wind Wehen lassen. So wie die grosse Uhren von Babylon.»

Mein Eindruck ist zwiegespalten: Töggl hat diverse der wichtigen Worte erkannt, doch die Verschriftlichung ist im Rohzustand nicht nachvollziehbar. Für einen verständlichen Text muss man einen beträchtlichen Aufwand in die Nachbearbeitung investieren.

Besonders auffällig ist, dass die Transkription nicht in Mundart erfolgt, sondern in Hochdeutsch, eine Version in Hochsprache, bei der das Dialekt-Original stark durchschimmert. Es wäre sinnvoll, wenn einem die App anbieten würde, eine Transkription in Schweizerdeutsch anzufertigen. Sie wäre mutmasslich besser verständlich und damit leichter zu korrigieren und beispielsweise für Archivzwecke ausreichend. Falls man eine Variante in Hochsprache benötigt, könnte sie anbieten, diese anhand der korrigierten Fassung automatisiert zu erstellen.

Jedenfalls zeigt sich die besondere Hürde, die sich Töggl stellt: Die Software muss zwei schwierige Schritte – nämlich die Spracherkennung in den Dialekten und die Übertragung in die Standardsprache – simultan bewältigen. Das ist deutlich schwieriger als die Aufgabe, mit der die Systeme von Microsoft, Google und Apple konfrontiert sind, die keine Übersetzung leisten. Angesichts dessen ist das Resultat nicht so schlecht – auch wenn einem erst einmal die Fehler ins Auge stechen.

Die Pressekonferenz des Bundesrats

Eine wichtige Aufgabe für eine Transkriptionssoftware sind Protokolle, wie sie die Recapp-Software für Parlamentssitzungen erstellt. Es bleibt daher abschliessend zu testen, wie gut die Transkription bei Politikervoten funktioniert. Töggl soll auch den Herausforderungen eines mehrsprachigen Landes gewachsen sein und mit dem schweizerdeutsch gefärbten Hochdeutsch umgehen können, das für viele Politiker typisch ist. Was Töggl aus Alain Bersets Deutsch mit französischem Einschlag macht, soll sich anhand eines Ausschnitts aus einer Pressekonferenz des Bundesrats zeigen.

Das ist der Ausschnitt in der manuellen Verschriftlichung:

«Voilà, meine Damen und Herren, ich würde gerne auf Deutsch zusammenfassen. Der Bundesrat hat sich heute intensiv mit der Impfung beschäftigt:

Wir möchten mit einem grossen Effort nochmals versuchen, möglichst viele Menschen vom Nutzen der Impfung zu überzeugen. Wie es bekannt ist – die Impfquote beträgt in der Schweiz im Moment für die gesamte Bevölkerung 58 oder 57 Prozent. Das ist eine der tiefsten Impfraten in Europa.

Als Vergleich – ich habe das vorher gesagt, aber ich glaube, Portugal ist bei etwa äh ... 5 ... 85 Prozent, Dänemark 75 Prozent, Irland auch auf gleichem Niveau, Belgien über 70 Prozent.

Und das sind auch Länder, wo man merkt ... dass, wenn man solche Impfraten mal hat ... man kann wirklich anders leben, man kann auch die Massnahmen weitgehend aufheben, was bei uns noch nicht der Fall ist.»

Die automatische Transkription präsentiert sich so:

«Meine Damen und Herren, gerne auf Deutsch zusammenfassen: der Bundesrat ist heute intensiv mit der Impfung beschäftigt. Wir möchten mit einem grossen F nochmals versuchen, möglichst viele Menschen vom Nutzen der Impfung zu überzeugen, wie es bekannt ist. Die Impf beträgt in der Schweiz im Moment für die Gesamtbevölkerung, 58 57%. Ähm das ist eine der tiefsten Impfrate in Europa. Vergleich das vorhergesagt, aber ich glaube, Portugal ist bei etwa 8 und 85% den Macht 75% ihr Land auch auf gleichen Niveau Belgien über 70% und die Länder, wo man merkt, wenn man solche Impfrate hat. Man kann wirklich anders leben. Man kann auch die Massnahmen weitgehend aufheben, was noch nicht bei uns noch nicht der Fall ist.»

Auch hier fällt auf, dass Worte, die die Software irritieren, einfach weggelassen werden. Das gilt für das «Voilà» am Anfang, aber auch für die «Quote» in «Impfquote». Für die Nachbearbeitung wäre es nützlich, wenn solche Auslassungen markiert würden. In der Webansicht markiert die Software simultan zur Wiedergabe die passende Textstelle, was es vereinfacht, Lücken und Fehler aufzufinden und zu korrigieren.

Mit dem Editor, der beim Abspielen die dazugehörige Textstelle markiert, lässt sich die Verschriftlichung kontrollieren und korrigieren. Screenshot: schü

Alles in allem ist die Transkription unbearbeitet nicht brauchbar, aber auch nicht völlig missraten. Es zeigt sich allerdings, dass schon einige wenige falsch erkannte Wörter – «F» statt «Effort», «den Macht» statt «Dänemark», «ihr Land» statt «Irland» – das Leseverständnis stark beeinträchtigen. Darum bleibt es dabei, dass man von einer solchen Software keine Wunder, sondern allenfalls eine Unterstützung erwarten darf – um die Nachbearbeitung kommt man nicht herum. Es bleibt vom Anwendungsfall abhängig, ob die Transkription eine Arbeitserleichterung bringt.

Töggl hat ein abgestuftes Preismodell, bei dem je nach Sprache eine unterschiedliche Zahl von Credits verrechnet wird. Für deutsches Hochdeutsch, Schweizer Hochdeutsch und Französisch wird ein halber Credit verrechnet. Für Schweizer Dialekt, Französisch und Deutsch gemischt und für Romanisch (Vallader, Rumantsch Grischun, Sursilvan, Puter) wird ein Credit pro Minute in Rechnung gestellt. Ein Credit kostet einen Franken plus Mehrwertsteuer.

Auch bei Trint.com gibt es einen Editor für die Überarbeitung des Transkripts. Screenshot: schü

Abschliessend zum Vergleich das Resultat von Trint.com. Das ist ein vergleichbarer Dienst, den wir unter dem Titel «Nie wieder abtippen!» vorgestellt haben. Er ist nicht auf die hiesigen Sprachen und Dialekte spezialisiert. Er liefert ein Resultat, das längst nicht perfekt ist, aber eine brauchbare Rohfassung liefert:

«Meine Damen und Herren, gerne auf Deutsch zusammenfassen. Der Bundesrat hat sich heute intensiv mit der Impfung beschäftigt. Wir möchten mit einem großen Effort nochmals versuchen, möglichst viele Menschen vom Nutzen der Impfung zu überzeugen, wie es bekanntlich die tiefrote beträgt in der Schweiz im Moment für die gesamte Bevölkerung 58 mal 57 prozent. Das ist eine der tiefsten Raten in Europa. Als Vergleich aber, dass vorher gesagt habe Ich glaube, Portugal ist bei etwa 8 und 85 prozent, Dänemark 75 prozent sicher und auch auf gleichem Niveau, Belgien über 70 prozent. Und siehe da auch Länder, wo man merkt, wenn man solche Impfung rate mal mal mehr mal hat. Man kann wirklich anders leben. Man kann auf die Maßnahmen weitgehend auf eben, was noch nicht bei uns noch nicht der Fall ist.»

Matthias Schüssler ist Digitalredaktor und berichtet über Neuigkeiten der Tech-Konzerne, Soft- und Hardware und gibt Hilfestellung für den souveränen Umgang mit Smartphone, Computer und Gadgets. Mehr Infos @MrClicko

Fehler gefunden?Jetzt melden.