Warum ist (fehlerfrei) automatisierte Transkription heute oft noch teurer als menschliche Transkription?
Sprachassistenten zu Hause lauschen unseren Worten immer häufiger mit und verstehen immer besser, was wir meinen. Suchbefehle am Smartphone werden immer öfter eingesprochen und auch sonst begegnen uns immer öfter sprachgesteuerte Apps und Geräte, die uns den Alltag oder auch den Beruf erleichtern sollen. Doch wie steht es um die automatisierte Transkription von Interviews? Reicht die Technik bereits aus?
Künstliche Intelligenz mehr Schein als Sein? Interessante Learnings im Kostenvergleich
Wenn Audioaufnahmen nur mehr von Software automatisch transkribiert wird und dies quasi ohne menschlichen Zeiteinsatz auskommt, sollte angenommen werden können, dass sich die Kosten für diese Rechenleistung auf einem sehr niedrigen Niveau befinden.
Ein Blick auf die Preise, die die Anbieter automatisierter Interviewtranskription verlangen, zeigt jedoch ein anderes Bild. Überraschenderweise sind die Preise mit jenen Angeboten, bei denen rein menschliche Transkription zum Einsatz kommt, durchaus vergleichbar. Wo also ist die Kostenersparnis?
Klarerweise liegt der Schluss nahe, dass die Anbieter automatisierter Transkription die Preise am Markt selbstverständlich kennen und ihr Produkt nicht grundlos zu billig anbieten möchten, sondern gerne von der möglichen Marge profitieren möchten, was aus unternehmerischer Sicht verständlich ist. Warum sollten sie ihre Leistung um die Hälfte anbieten, wenn der Markt durchaus bereit ist, mehr für Interviewtranskriptionen zu bezahlen?
Doch ist dies wirklich der einzige Grund, warum die Preise für KI-Transkription relativ hoch ausfallen oder steckt noch etwas anderes dahinter? Ein Hinweis zeigt sich bei einem Blick auf die Bearbeitungszeiten.
Bringt automatisierte Transkription Zeitersparnis?
Da eine Software nicht jeden Buchstaben einzeln in die Tastatur zu tippen hat wie bei einem humanen Transkriptionsdienst, sondern die Audiodaten in Bits and Bytes in Textform umgewandelt werden, sollte neben der Kostenersparnis auch eine deutliche Zeitersparnis zu gewinnen sein. Doch auch hier überraschen Bearbeitungszeiten von mitunter mehreren Tagen für Audiointerviews, was auch bei manuellen Transkriptionsdiensten durchaus üblich ist bzw. teils sogar noch schneller geht.
Wo bleibt also die Kosten- und Zeitersparnis?
Es fragt sich also, warum die Anbieter die Kosten- und Zeitersparnis bei der Transkription nicht an ihre Kunden weitergeben, um sich dadurch Wettbewerbsvorteile zu verschaffen. Auf den Webseiten einiger Anbieter ist die Antwort auf diese Frage durchaus zu finden.
Dort wird nämlich unterschieden zwischen rein automatisierter Transkription und einer qualitativ hochwertigeren, um menschliches Zutun angereicherten bzw. verbesserten Transkription. Die rein automatische Transkription ist tatsächlich günstiger und schneller. Datei hochladen, die Software darüber laufen lassen und die Transkriptdatei herunterladen. Ob die Qualität allerdings tatsächlich für eine Auswertung und Analyse ausreicht bzw. ob die Inhalte überhaupt korrekt verstanden wurden, das zu beurteilen, bleibt dem Kunden selbst überlassen.
KI müht sich vor allem mit Dialekten und mehreren Personen
Wer eine perfekte Transkription auf dem Level menschlicher Transkription möchte, hat daher die Möglichkeit dazu. Allerdings ist diese ebenso teuer, wie gleich bei einem manuellen Transkriptionsdienst zu buchen – dieser ist in vielen Fällen sogar noch schneller, da direkt im ersten Durchlauf korrekt transkribiert wird und nicht erst Fehler und falsch verstandene Worte und ganze Sätze mühevoll ausgebessert werden müssen. Dies ist auch der Grund, warum die perfekte Transkription bei automatisiert arbeitenden Anbietern mitunter sogar teurer ist als bei klassischen Transkriptionsservices. Denn die menschliche Nachkontrolle wird oft sogar an ebendiese ausgelagert.
Als Transkriptionsservice, der seit 2008 rein auf menschliche Verschriftlichung von Interviews setzt, beobachten wir natürlich auch selbst die Entwicklung automatisierter Transkriptionssoftwares. Und das aus der ersten Reihe! Denn immer wieder sind wir auch für Anbieter automatisierter Transkriptionsdienste tätig, die uns buchen, um die automatisch erstellten Transkripte zu verbessern und für den Versand and die Kunden aufzubereiten.
Unsere Erfahrungen aus dieser Tätigkeit waren für uns natürlich sehr interessant und zeigen, dass „KI“ Software heute noch nicht so weit zu sein scheint wie manch einer denken mag. Die Verbesserung der Transkripte nimmt oftmals so viel Zeit in Anspruch wie die rein menschliche Transkription von 0 weg. Eine Zeitersparnis ist schon allein dadurch nicht gegeben.
Auffallend ist, wie zu erwarten war, dass die automatisierten Softwares sich vor allem mit Dialekten, auch mit „leichten“, schwertun. Darüber hinaus werden mitunter ganze Sätze ausgelassen und gar nicht transkribiert, wenn es zu Überlappungen mehrerer Sprecher kommt. Dadurch gingen ohne menschliche Nachkontrolle wichtige Aussagen verloren. Auch der Wortschatz lässt manchmal zu wünschen übrig. Vor allem bei Floskeln, die für das menschliche Ohr natürlich gewohnt sind und einfach niedergeschrieben werden, verwendet die Software meistens andere Worte, die mitunter gar nicht zum Kontext passen.
Menschliches Zutun auch weiterhin erforderlich
Aus unserer Sicht wird menschliches Zutun bei automatisierter Transkription auch weiterhin noch für einige Zeit erforderlich sein. Sei es durch den Kunden selbst oder aber durch einen menschlichen Transkriptionsdienst, der die automatisiert erstellten Texte aufarbeitet. Mitunter schneller und oft sogar günstiger geht es allerdings, wenn direkt ein klassischer Transkriptionsservice beauftragt wird.