ChatPaper.aiChatPaper

Das TTS-STT-Schwungrad: Synthetische, entitätsreiche Audiodaten schließen die Lücke in der indischen Spracherkennung, wo kommerzielle und Open-Source-Systeme versagen

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

May 4, 2026
Autoren: Venkata Pushpak Teja Menta
cs.AI

Zusammenfassung

Nischenbereich Indische ASR – Ziffernfolgen, Währungsbeträge, Adressen, Markennamen, Englisch/Indische Codemischung – wird sowohl von Open-Source-SOTA- als auch von kommerziellen Systemen nur unzureichend abgedeckt. Auf einem synthetisierten, entitätsdichten Telugu-Testsatz (gehalten durch das Synthesesystem) erreicht vasista22/whisper-telugu-large-v2 (Open-Source-SOTA) eine Entity-Hit-Rate (EHR) von 0,027 und Deepgram Nova-3 (kommerziell) 0,16. Wir schließen diese Lücke mit einer eigenständigen TTS<->STT-Flywheel-Methode: Eine Open-Source-Indische-TTS-Pipeline synthetisiert ~22.000 entitätsdichte Indisch-Englische Codemix-Äußerungen zu Grenzkosten von <50 USD, und ein LoRA-Fine-Tuning auf Basis von vasista22 erreicht eine EHR von 0,473 auf dem zurückgehaltenen Test (17x über Open-Source-SOTA, 3x über kommerziell), bei einem begrenzten Regressionsverlust in Vorleseprosa von +6,6 Prozentpunkten WER auf FLEURS-Te. Sprachübergreifend: Beta-Hi 0,337 (7x vs. vasista22) und Beta-Ta 0,543 (22x vs. vasista22, 22x vs. Deepgram); in Hindi, wo Deepgram eine substantiale Entitätenabdeckung hat, liegt das Flywheel-System unter den kommerziellen Werten. Alle drei Beta-Modelle bleiben unter den präregistrierten EHR-Zielen (0,75 für Te, 0,65 für Hi/Ta); wir berichten ehrlich. Ein Sanity-Check mit nativen menschlichen Aufnahmen (n=20 Telugu) bestätigt die Übertragbarkeit auf echte Sprache (Beta-Te EHR 0,516 auf Native vs. 0,473 auf Synthese). Eine EDSA-Isolations-Ablation (nur LoRA auf FLEURS-Te) ergibt eine EHR von 0,020 auf demselben Holdout, was ~100% des Gewinns dem EDSA-Korpus zuschreibt. Zusätzlich berichten wir einen sprachkonditionalen Befund: Vanilla Whisper-large-v3 weist einen Telugu-spezifischen Script Collapse (SFR 0,46-0,71) auf, den ein sprachspezifisches LoRA korrigiert (SFR 0,81-0,97), aber die Methode ist für Hindi und Tamil kontraindiziert, wo Vanilla SFR >= 0,98 beträgt. Code, Holdouts, Vorhersagen, EDSA-Korpus und Entitäten-Wörterbücher sind quelloffen veröffentlicht.
English
Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.
PDF22May 7, 2026