Vividh-ASR: Um Benchmark em Níveis de Complexidade e Dinâmicas de Otimização para o Reconhecimento Robusto de Fala em Línguas Índicas

Resumo

O ajuste fino de modelos ASR multilíngues como o Whisper para idiomas de baixos recursos frequentemente melhora a fala lida, mas degrada o desempenho em áudio espontâneo, fenômeno que denominamos viés de estúdio (studio-bias). Para diagnosticar essa incompatibilidade, apresentamos o Vividh-ASR, um benchmark estratificado por complexidade para hindi e malaiala em quatro níveis: estúdio, transmissão, espontâneo e ruído sintético. Por meio de um estudo controlado do timing da taxa de aprendizado e da ordenação do currículo, descobrimos que atualizações iniciais grandes dos parâmetros melhoram a WER global em 12 pontos absolutos, enquanto um currículo do difícil para o fácil adiciona ganhos para a fala espontânea. Essas descobertas motivam o ajuste fino reverso em múltiplos estágios (R-MFT), uma receita de treinamento que permite que um modelo Whisper de 244M parâmetros, eficiente em termos de parâmetros, iguale ou supere seus equivalentes de 769M ajustados convencionalmente. A análise representacional via CKA e SVD revela que cronogramas eficazes concentram a adaptação no decodificador, preservando a geometria acústica do codificador pré-treinado. Disponibilizamos o benchmark e os modelos.

English

Fine-tuning multilingual ASR models like Whisper for low-resource languages often improves read speech but degrades spontaneous audio performance, a phenomenon we term studio-bias. To diagnose this mismatch, we introduce Vividh-ASR, a complexity-stratified benchmark for Hindi and Malayalam across four tiers: studio, broadcast, spontaneous, and synthetic noise. Through a controlled study of learning-rate timing and curriculum ordering, we find that early large parameter updates improve global WER by 12 absolute points, while a hard-to-easy curriculum adds gains for spontaneous speech. These findings motivate reverse multi-stage fine-tuning (R-MFT), a training recipe that enables a parameter-efficient 244M Whisper model to match or exceed conventionally fine-tuned 769M counterparts. Representational analysis via CKA and SVD reveals effective schedules concentrate adaptation in the decoder, preserving the pre-trained encoder's acoustic geometry. We release the benchmark and models.