Konvexe ressourcenarme akzentrobuste Sprachidentifikation in der Spracherkennung

Zusammenfassung

Globalisierung und Multikulturalismus führen weiterhin zu immer vielfältigeren Sprachvarietäten. Dennoch versagen aktuelle gesprochene Dialogsysteme häufig bei unterrepräsentierten Dialekten und Akzenten, indem sie die Eingabesprache oft falsch identifizieren und dadurch kaskadierende Fehler in nachgelagerten Dialogaufgaben verursachen. Die Bewältigung dieser dialektalen Varianz unter ressourcenarmen Bedingungen bleibt eine offene Herausforderung, da standardmäßiges Feintuning rechenintensiv ist und zur Überanpassung an hochdimensionale Sprachdaten neigt. Wir schlagen Convex Language Detection (CLD) vor, ein neuartiges Framework, das theoretisch fundierte konvexe Optimierungstechniken in die Pipeline gesprochener Dialogsysteme integriert. Unsere Methode wird effizient über die Multi-GPU-Methode der alternierenden Richtungsmultiplikatoren (ADMM) in JAX implementiert und bietet somit Garantien globaler Optimalität sowie schnelles Training in polynomialer Zeit. Theoretisch beweisen wir, dass unser konvexes Zielfunktional eine zertifizierte Randstabilität induziert, und wir geben Garantien gegen Merkmalsstörungen. Empirisch zeigen wir Stichprobeneffizienz und Robustheit gegenüber dialektaler Variation der Eingabe und erreichen 97–98 % Genauigkeit in anspruchsvollen ressourcenarmen Szenarien. Unser Open-Source-Paket ist verfügbar unter https://pypi.org/project/jaxcld/.

English

Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/