La Rueda de Inercia TTS-STT: El Audio Sintético Rico en Entidades Cierra la Brecha del ASR para Lenguas Indicas Donde Fallan los Sistemas Comerciales y de Código Abierto

Resumen

El reconocimiento automático del habla (ASR) para dominios específicos del índico —cadenas numéricas, cantidades monetarias, direcciones, nombres de marcas, mezcla de códigos inglés/índico— está poco atendido tanto por los sistemas de última generación (SOTA) de código abierto como por los comerciales. En un conjunto de prueba sintetizado en telugu, denso en entidades (reservado por el sistema de síntesis), vasista22/whisper-telugu-large-v2 (SOTA abierto) logra una Tasa de Acierto de Entidades (EHR) de 0.027 y Deepgram Nova-3 (comercial) de 0.16. Cerramos esta brecha con un sistema autocontenido de retroalimentación TTS<->STT: un pipeline de síntesis de voz (TTS) de código abierto para lenguas índicas sintetiza ~22,000 enunciados densos en entidades y con mezcla de códigos índico-inglés a un coste marginal <$50, y un ajuste fino LoRA sobre vasista22 logra una EHR de 0.473 en la prueba reservada (17 veces más que el SOTA abierto, 3 veces más que el comercial), con una regresión en prosa leída limitada a +6.6 pp de Tasa de Error de Palabras (WER) en FLEURS-Te. Entre lenguas: beta-Hi 0.337 (7x vs vasista22) y beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); en hindi, donde Deepgram tiene una cobertura sustancial de entidades, el sistema de retroalimentación tiene un rendimiento inferior al comercial. Los tres modelos beta se sitúan por debajo de los objetivos de EHR preregistrados (0.75 para Te, 0.65 para Hi/Ta); reportamos con honestidad. Una verificación de validez grabada por humanos nativos (n=20 telugu) confirma la transferencia al habla real (beta-Te EHR 0.516 en nativos vs 0.473 en sintético). Una ablación por aislamiento EDSA (LoRA solo sobre FLEURS-Te) produce una EHR de 0.020 en el mismo conjunto reservado, atribuyendo ~100% de la ganancia al corpus EDSA. Adicionalmente, reportamos un hallazgo condicionado por lengua: Whisper-large-v3 estándar presenta un Colapso de Escritura específico del telugu (SFR 0.46-0.71) que un LoRA por lengua corrige (SFR 0.81-0.97), pero la receta está contraindicada en hindi y tamil donde el SFR estándar >= 0.98. El código, conjuntos de prueba reservados, predicciones, corpus EDSA y diccionarios de entidades se publican como código abierto.

English

Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.

La Rueda de Inercia TTS-STT: El Audio Sintético Rico en Entidades Cierra la Brecha del ASR para Lenguas Indicas Donde Fallan los Sistemas Comerciales y de Código Abierto

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Resumen

Support