Колесо TTS-STT: Синтетические аудиоданные с высокой плотностью сущностей устраняют разрыв в распознавании индийских языков, где коммерческие и открытые системы терпят неудачу
The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail
May 4, 2026
Авторы: Venkata Pushpak Teja Menta
cs.AI
Аннотация
Специализированные системы автоматического распознавания речи (ASR) для индийских языков — работающие с цифровыми последовательностями, денежными суммами, адресами, названиями брендов, код-миксингом английского и индийских языков — недостаточно представлены как среди открытых state-of-the-art (SOTA) решений, так и среди коммерческих систем. На синтезированном тестовом наборе данных на телугу с высокой плотностью именованных сущностей (отложенном системой синтеза) модель vasista22/whisper-telugu-large-v2 (открытый SOTA) демонстрирует показатель Entity-Hit-Rate (EHR) 0.027, а коммерческая система Deepgram Nova-3 — 0.16. Мы устраняем этот разрыв с помощью автономного механизма "flywheel" TTS<->STT: открытый конвейер синтеза речи (TTS) для индийских языков синтезирует ~22 000 высказываний с высокой плотностью сущностей и код-миксингом индийских языков с английским при предельной стоимости <$50, а дообучение с помощью LoRA поверх модели vasista22 достигает EHR 0.473 на отложенном тесте (в 17 раз выше, чем у открытого SOTA, и в 3 раза выше, чем у коммерческой системы), при этом регрессия на чтении прозы ограничена величиной +6.6 п.п. WER на FLEURS-Te. Межъязыковые результаты: бета-версия для хинди — EHR 0.337 (в 7 раз выше, чем у vasista22) и для тамильского — EHR 0.543 (в 22 раза выше, чем у vasista22 и Deepgram); для хинди, где Deepgram имеет существенное покрытие сущностей, наш механизм уступает коммерческой системе. Все три бета-модели не достигли предварительно зарегистрированных целевых показателей EHR (0.75 для телугу, 0.65 для хинди/тамильского); мы сообщаем результаты честно. Проверка на нативно записанной человеческой речи (n=20 дикторов телугу) подтверждает перенос на реальную речь (EHR бета-телугу 0.516 на нативной записи против 0.473 на синтезированной). Абляционное исследование с изоляцией EDSA (LoRA только на FLEURS-Te) дает EHR 0.020 на том же отложенном наборе, что позволяет отнести ~100% улучшения к корпусу EDSA. Дополнительно мы сообщаем обусловленное языком наблюдение: базовая модель Whisper-large-v3 демонстрирует специфичный для телугу "коллапс письменности" (SFR 0.46-0.71), который исправляется LoRA для каждого языка (SFR 0.81-0.97), но данный метод противопоказан для хинди и тамильского, где исходный SFR >= 0.98. Код, отложенные наборы, предсказания, корпус EDSA и словари сущностей выпущены в открытый доступ.
English
Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.