ChatPaper.aiChatPaper

Le Volant TTS-STT : L'Audio Synthétique à Forte Densité d'Entités Comble l'Écart de la Reconnaissance Vocale pour les Langues Indiques Là Où les Systèmes Commerciaux et Open Source Échouent

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

May 4, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI

Résumé

La reconnaissance vocale automatique (ASR) pour l'indic dans des domaines de niche — chaînes de chiffres, montants monétaires, adresses, noms de marques, mélange de codes anglais/indic — est mal desservie par les systèmes open-source à l'état de l'art (SOTA) et commerciaux. Sur un ensemble de test synthétique en télougou dense en entités (réservé par le système de synthèse), vasista22/whisper-telugu-large-v2 (SOTA open-source) obtient un Taux de Reconnaissance d'Entités (EHR) de 0,027 et Deepgram Nova-3 (commercial) de 0,16. Nous comblons cet écart avec un système autonome en boucle TTS<->STT : un pipeline TTS indic open-source synthétise ~22 000 énoncés denses en entités en mélange de codes indic-anglais pour un coût marginal < 50 $, et un réglage fin LoRA appliqué à vasista22 atteint un EHR de 0,473 sur le test réservé (17x supérieur au SOTA open-source, 3x supérieur au commercial), avec une régression limitée à +6,6 points de pourcentage de WER sur FLEURS-Te pour la prose lue. Transversalité linguistique : bêta-Hi 0,337 (7x vs vasista22) et bêta-Ta 0,543 (22x vs vasista22, 22x vs Deepgram) ; sur l'hindi où Deepgram a une couverture substantielle d'entités, le système en boucle est moins performant que le commercial. Les trois modèles bêta restent en deçà des objectifs EHR pré-enregistrés (0,75 pour Te, 0,65 pour Hi/Ta) ; nous rapportons honnêtement. Un contrôle de cohérence enregistré par des locuteurs natifs (n=20 télougou) confirme le transfert vers la parole réelle (EHR bêta-Te 0,516 sur natif vs 0,473 sur synthétique). Une ablation par isolation EDSA (LoRA sur FLEURS-Te seul) produit un EHR de 0,020 sur le même ensemble réservé, attribuant ~100 % du gain au corpus EDSA. Nous rapportons également un résultat conditionnel à la langue : Whisper-large-v3 standard présente un Effondrement de Script spécifique au télougou (SFR 0,46-0,71) qu'un réglage LoRA par langue corrige (SFR 0,81-0,97), mais la méthode est contre-indiquée pour l'hindi et le tamoul où le SFR standard est >= 0,98. Le code, les ensembles réservés, les prédictions, le corpus EDSA et les dictionnaires d'entités sont publiés en open-source.
English
Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.
PDF22May 7, 2026