Détection convexe de la langue robuste aux accents et à faibles ressources dans la reconnaissance de la parole

Résumé

La mondialisation et le multiculturalisme continuent de produire des variétés linguistiques de plus en plus diverses. Pourtant, les systèmes de dialogue parlé actuels échouent fréquemment face aux dialectes et accents sous-représentés, identifiant souvent incorrectement la langue d’entrée et provoquant des défaillances en cascade dans les tâches de dialogue en aval. Relever ce défi de la variation dialectale dans des conditions de faibles ressources reste un problème ouvert, car le fine-tuning standard est coûteux en calcul et sujet au surapprentissage sur des données vocales de haute dimension. Nous proposons la Détection Convexe de Langue (CLD), un nouveau cadre qui intègre des techniques d’optimisation convexe fondées théoriquement dans le pipeline des systèmes de dialogue parlé. Notre méthode est implémentée efficacement via la Méthode des Multiplicateurs à Direction Alternée (ADMM) multi-GPU dans JAX, offrant ainsi des garanties d’optimalité globale et un apprentissage rapide en temps polynomial. Théoriquement, nous prouvons que notre objectif convexe induit une stabilité de marge certifiée et fournissons des garanties contre les perturbations de caractéristiques. Empiriquement, nous démontrons l’efficacité en termes d’échantillons et la robustesse face à la variation dialectale d’entrée, atteignant une précision de 97 à 98 % dans des régimes de faibles ressources exigeants. Notre package open-source est disponible à l’adresse https://pypi.org/project/jaxcld/

English

Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/