Le Volant TTS-STT : L'Audio Synthétique à Forte Densité d'Entités Comble l'Écart de la Reconnaissance Vocale pour les Langues Indiques Là Où les Systèmes Commerciaux et Open Source Échouent

Résumé

La reconnaissance vocale automatique (ASR) pour l'indic dans des domaines de niche — chaînes de chiffres, montants monétaires, adresses, noms de marques, mélange de codes anglais/indic — est mal desservie par les systèmes open-source à l'état de l'art (SOTA) et commerciaux. Sur un ensemble de test synthétique en télougou dense en entités (réservé par le système de synthèse), vasista22/whisper-telugu-large-v2 (SOTA open-source) obtient un Taux de Reconnaissance d'Entités (EHR) de 0,027 et Deepgram Nova-3 (commercial) de 0,16. Nous comblons cet écart avec un système autonome en boucle TTS<->STT : un pipeline TTS indic open-source synthétise ~22 000 énoncés denses en entités en mélange de codes indic-anglais pour un coût marginal < 50 $, et un réglage fin LoRA appliqué à vasista22 atteint un EHR de 0,473 sur le test réservé (17x supérieur au SOTA open-source, 3x supérieur au commercial), avec une régression limitée à +6,6 points de pourcentage de WER sur FLEURS-Te pour la prose lue. Transversalité linguistique : bêta-Hi 0,337 (7x vs vasista22) et bêta-Ta 0,543 (22x vs vasista22, 22x vs Deepgram) ; sur l'hindi où Deepgram a une couverture substantielle d'entités, le système en boucle est moins performant que le commercial. Les trois modèles bêta restent en deçà des objectifs EHR pré-enregistrés (0,75 pour Te, 0,65 pour Hi/Ta) ; nous rapportons honnêtement. Un contrôle de cohérence enregistré par des locuteurs natifs (n=20 télougou) confirme le transfert vers la parole réelle (EHR bêta-Te 0,516 sur natif vs 0,473 sur synthétique). Une ablation par isolation EDSA (LoRA sur FLEURS-Te seul) produit un EHR de 0,020 sur le même ensemble réservé, attribuant ~100 % du gain au corpus EDSA. Nous rapportons également un résultat conditionnel à la langue : Whisper-large-v3 standard présente un Effondrement de Script spécifique au télougou (SFR 0,46-0,71) qu'un réglage LoRA par langue corrige (SFR 0,81-0,97), mais la méthode est contre-indiquée pour l'hindi et le tamoul où le SFR standard est >= 0,98. Le code, les ensembles réservés, les prédictions, le corpus EDSA et les dictionnaires d'entités sont publiés en open-source.

English

Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.

Le Volant TTS-STT : L'Audio Synthétique à Forte Densité d'Entités Comble l'Écart de la Reconnaissance Vocale pour les Langues Indiques Là Où les Systèmes Commerciaux et Open Source Échouent

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Résumé

Support