Detecção de Idioma Robusta a Sotaques com Baixos Recursos Baseada em Métodos Convexos para Reconhecimento de Fala

Resumo

Globalização e multiculturalismo continuam a produzir variedades de fala cada vez mais diversas. No entanto, os atuais sistemas de diálogo falado frequentemente falham em dialetos e sotaques sub-representados, identificando erroneamente o idioma de entrada e causando falhas em cascata em tarefas de diálogo a jusante. Lidar com essa variação dialetal sob restrições de baixos recursos continua sendo um desafio em aberto, pois o ajuste fino padrão é computacionalmente caro e propenso a sobreajuste em dados de fala de alta dimensionalidade. Propomos a Detecção de Idioma Convexa (CLD), uma nova estrutura que integra técnicas de otimização convexa com fundamentação teórica no pipeline de sistemas de diálogo falado. Nosso método é implementado de forma eficiente por meio do Método dos Multiplicadores de Direção Alternada (ADMM) multi-GPU em JAX, fornecendo assim garantias de otimalidade global e treinamento rápido em tempo polinomial. Teoricamente, provamos que nosso objetivo convexo induz estabilidade de margem certificada e oferecemos garantias contra perturbações de características. Empiricamente, demonstramos eficiência amostral e robustez à variação dialetal de entrada, alcançando 97-98% de precisão em regimes desafiadores de baixos recursos. Nosso pacote de código aberto está disponível em https://pypi.org/project/jaxcld/

English

Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/