ChatPaper.aiChatPaper

Convexe laag-resource accent-robuuste taaldetectie in spraakherkenning

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

May 22, 2026
Auteurs: Miria Feng, William Tan, Mert Pilanci
cs.AI

Samenvatting

Globalisering en multiculturalisme blijven leiden tot steeds diversere spreekvariëteiten. Toch falen huidige gesproken dialoogsystemen vaak bij ondervertegenwoordigde dialecten en accenten, doordat ze de invoertaal verkeerd identificeren, wat cascadefouten veroorzaakt in stroomafwaartse dialoogtaken. Het aanpakken van deze dialectische variatie onder beperkte-bronnenomstandigheden blijft een open uitdaging, aangezien standaard finetuning rekenkundig duur is en gevoelig voor overfitting op hoogdimensionale spraakdata. Wij stellen Convex Language Detection (CLD) voor, een nieuw raamwerk dat theoretisch gefundeerde convexe optimalisatietechnieken integreert in de pijplijn van gesproken dialoogsystemen. Onze methode wordt efficiënt geïmplementeerd via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, wat wereldwijde optimaliteitsgaranties en snelle training in polynomiale tijd biedt. Theoretisch bewijzen we dat onze convexe doelstelling gecertificeerde marge-stabiliteit oplevert en geven we garanties tegen kenmerkstoringen. Empirisch tonen we steekproefsefficiëntie en robuustheid tegen invoerdialectische variatie aan, met een nauwkeurigheid van 97-98% in uitdagende lage-bronnenregimes. Ons open-sourcepakket is beschikbaar op https://pypi.org/project/jaxcld/
English
Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/