KIDOU Spracherkennung im Vergleich mit
Azure, Google Cloud und OpenAI Whisper

Abstract
KIDOU hebt sich in der deutschen Spracherkennung deutlich von den getesteten Modellen OpenAI Whisper, NVIDIA Nemo, Google Cloud und Azure ab. Besonders bei der Erkennung von Zahlen und technischem Fachvokabular zeigt KIDOU überlegene Präzision mit den niedrigsten Fehlerraten im Test. Zudem überzeugt das Modell durch hohe Geschwindigkeit, ressourcenschonende Architektur und flexible Einsatzmöglichkeiten – von der Cloud bis zu mobilen Geräten. Diese Eigenschaften machen KIDOU zu einer leistungsstarken Lösung für anspruchsvolle Spracherkennungsanwendungen.

Spracherkennung ist aus dem modernen Alltag kaum noch wegzudenken. Ob im medizinischen Bereich, in der Industrie oder bei technischen Anwendungen – präzise und effiziente Lösungen sparen Zeit, erleichtern die Dokumentation und eröffnen neue Möglichkeiten der Prozessautomatisierung.

Doch welche Sprachmodelle liefern die besten Ergebnisse?

In diesem Artikel werfen wir einen Blick auf

KIDOU, unser maßgeschneidertes Spracherkennungsmodell

, das lokal, in der

Cloud und mobil

eingesetzt werden kann. Im Vergleich zu bekannten Modellen wie OpenAI Whisper, NVIDIA Nemo und den Cloud-Diensten von Google und Azure zeigen wir, wie KIDOU in puncto

Geschwindigkeit, Genauigkeit und Vielseitigkeit

überzeugt.

KIDOU kann Zahlen sowie medizinische und technische Fachbegriffe treffsicher erkennen

.

Die Testbedingungen und Datensätze sind dabei so gewählt, dass sie realitätsnah und praxisrelevant sind. Neben allgemeinen Sprachdaten berücksichtigen wir medizinische und technische Szenarien sowie die oft unterschätzte Herausforderung der präzisen Zahlenerkennung.

Das kann unsere KIDOU Spracherkennung

KIDOU-Sprachmodelle zeichnen sich durch vier wesentliche Merkmale aus:

Geschwindigkeit:

KIDOU kann Sprache extrem schnell verarbeiten – eine Aufnahme von 10 Sekunden wird in nur 0,2 Sekunden transkribiert. Das bedeutet, dass die Verarbeitung bis zu 50-mal schneller ist als die eigentliche Dauer der Sprachaufnahme.

Kompakte Größen:

KIDOU wird als 250 MB und als 40 MB Modell angeboten.
Je nach Bedarf sind auch weitere Größen möglich, somit passt sich KIDOU perfekt an Ihre Anforderungen an.

Datensicherheit:

Die Modelle laufen nicht nur in der Cloud, sondern auch On-Prem und lokal auf Mobilgeräten wie Smartphones und Laptops – eine wichtige Eigenschaft für datensensible Anwendungen.

Ressourcenschonend:

KIDOU-Modelle sind so optimiert, dass sie auch auf Geräten mit begrenzter Rechenleistung problemlos funktionieren. Selbst auf Smartphones oder Laptops liefern sie schnelle und präzise Ergebnisse, ohne den Akku oder die Hardware übermäßig zu belasten.

Mit KIDOU bieten wir eine Lösung, die sowohl technisch führend als auch flexibel anpassbar ist

– eine

Kombination, die besonders für Unternehmen und Organisationen mit spezifischen Anforderungen attraktiv ist

.

Testdesign

Für unseren Vergleich wurden die Sprachmodelle unter realistischen Bedingungen getestet:

Vergleichsmodelle:

  • Whisper (openai/whisper-large-v3-turbo)
  • Nemo (RNNT-Hybrid-Model)
  • Google- Cloud (Stand August 2024)
  • Azure-Cloud (Stand August 2024)
  • KIDOU (unser Modell, Stand Juli 2024)

Test-Datensätze:

  • Mozilla Common Voice (Delta V19, 18.09.2024):
    Offene Sprachdaten für generelle Tests.
  • Medizinische Audiodaten:
    Interne Daten aus dem medizinischen Bereich (z. B. “Die Patientin zeigt seit fünf Tagen deutliche Zeichen einer Endokarditis.”)
  • Technische Audiodaten:
    Sprachaufnahmen mit spezialisiertem technischem Vokabular. (z. B. “Staubmanschette Spurstangenkopf gerissen.”
  • Gesprochene Zahlen:
    Zahlen mit unterschiedlichen Formaten (z. B. Telefonnummern, Dezimalzahlen, Jahreszahlen).

Diese Kombination ermöglicht einen umfassenden Überblick über die Stärken und Schwächen
der Modelle in verschiedenen Anwendungsbereichen.

Warum verschiedene Datensätze?

Jedes Spracherkennungsmodell hat verschiedene Stärken und Schwächen. Wir wollen in diesem Artikel untersuchen, wo diese liegen. Daher listet die folgende Tabelle die Fehlerraten getrennt für jeden Datensatz und jedes Modell auf. Auch jede Anwendung hat unterschiedliche Anforderungen: In jeder Domäne sind andere Fachbegriffe wichtig und auch die Aufnahmebedingungen und Störgeräusche sind unterschiedlich.

Testergebnisse

Wortfehlerrate (Word Error Rate, WER):
Misst die Genauigkeit der Transkription basierend auf der Rate korrekt transkribierter Worte. Je niedriger, desto besser.

Wortfehlerrate (WER)

Dataset KIDOU KIDOU Technical Nemo Whisper Google Cloud
Azure Cloud
Mozilla Common Voice DE 8.44% 8.92% 6.46% 10.02% 15.78% 9.80%
Medical Dataset 8.42% 9.58% 13.69% 21.57% 23.79% 12.29%
Technical Dataset 23.99% 4.15% 38.93% 39.35% 22.59% 28.30%

(Kleine Werte sind besser)

Ziffer-Fehler-Rate (Number Error Rate, NER):

Bewertet die Präzision der Zahlenerkennung  besonders wichtig in Anwendungen, bei denen Fehler große Auswirkungen haben können.

Ziffer-Fehler-Rate (NER)

KIDOU KIDOU-Technical Nemo Whisper Cloud Google Cloud Azure
NER 1.35% 0.96% 6.27% 10.18% 8.59% 18.52%

(Kleine Werte sind besser)

Beobachtungen und Analysen

KIDOUs Stärke bei Zahlen:

Zahlen spielen in vielen Anwendungen eine entscheidende Rolle. Cloud-Dienste wie Google und Azure zeigen hier Schwächen, während KIDOU-Modelle präzise Ergebnisse liefern – selbst bei komplexen Formaten wie Dezimalzahlen.

Technisches Vokabular:

Der technische Datensatz hebt hervor, wie wichtig spezialisierte Modelle sind. KIDOU-Technical übertrifft alle anderen Modelle deutlich, da es speziell auf diesen Anwendungsfall abgestimmt ist.

Starke Ergebnisse bei allgemeiner Spracherkennung:

KIDOU liefert nicht nur in spezialisierten Szenarien überzeugende Ergebnisse, sondern zeigt auch bei allgemeinen Sprachdaten eine hohe Präzision. Dies macht das Modell vielseitig einsetzbar – von alltäglicher Spracherkennung bis hin zu spezifischen Anwendungsfällen

Test auf Mobilgerät

Jetzt haben wir gesehen, dass die Erkennungsrate von KIDOU überzeugt, aber wie lange hält ein Smartphone mit KIDOU im Dauerbetrieb durch?

Der Test auf einem Samsung S23 liefert beeindruckende Ergebnisse: Eine Stunde ununterbrochene Spracherkennung verbraucht gerade einmal 5 % des Akkus. Das bedeutet, selbst bei intensiver Nutzung bleibt das Gerät energieeffizient – perfekt für mobile Anwendungen, bei denen Zuverlässigkeit und Ausdauer entscheidend sind.

Anwendungsszenarien

In diesem Artikel haben wir eine Komponente des KIDOU-Sprachbaukastens intensiv beleuchtet: Die Spracherkennung.

KIDOU bietet darüber hinaus auch Textverständnis und die Extraktion von strukturierten Informationen. Damit ermöglicht KIDOU vielfältige Anwendungsfälle.

 

 

Spracherkennung
in der Medizin 

 

 

 

Spracherkennung
in der Industrie

 

Spracherkennung
in der Verwaltung

 

Fazit

KIDOU-Modelle kombinieren Schnelligkeit, Präzision und Vielseitigkeit

– eine ideale Lösung für Unternehmen, die auf

zuverlässige Spracherkennung

angewiesen sind.

Mit ihren kompakten Größen, beeindruckenden Erkennungsraten und hervorragender Zahlenerkennung bieten sie klare Vorteile gegenüber der Konkurrenz.

Gerne optimieren wir unser KIDOU Sprachmodell speziell für Ihren Anwendungsfall.

Follow Us!

Fara Sendjaja, Marketingmanagerin

KENBUN IT AG
Haid-und-Neu-Straße 7
76131 Karlsruhe
+49 721 781 503 02
office@kenbun.de

INTEGRATION    
KIDOU Sprach Tools