Detección convexa de idiomas robusta ante acentos con recursos limitados en reconocimiento de voz

Resumen

La globalización y el multiculturalismo continúan generando variedades lingüísticas cada vez más diversas. Sin embargo, los sistemas actuales de diálogo oral fallan con frecuencia ante dialectos y acentos subrepresentados, identificando erróneamente el idioma de entrada y provocando fallos en cascada en tareas posteriores de diálogo. Abordar esta variación dialectal en condiciones de recursos limitados sigue siendo un desafío abierto, ya que el ajuste fino estándar es computacionalmente costoso y propenso al sobreajuste en datos de habla de alta dimensionalidad. Proponemos Detección de Lenguaje Convexo (CLD), un marco novedoso que integra técnicas de optimización convexa con fundamentos teóricos en el pipeline de sistemas de diálogo oral. Nuestro método se implementa eficientemente mediante el Método de Multiplicadores de Dirección Alternada (ADMM) en múltiples GPU con JAX, lo que proporciona garantías de optimalidad global y un entrenamiento rápido en tiempo polinomial. Teóricamente, demostramos que nuestro objetivo convexo induce una estabilidad de margen certificada y ofrecemos garantías frente a perturbaciones de características. Empíricamente, evidenciamos eficiencia muestral y robustez ante la variación dialectal de entrada, alcanzando una precisión del 97-98 % en regímenes desafiantes de recursos limitados. Nuestro paquete de código abierto está disponible en https://pypi.org/project/jaxcld/

English

Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/