Выпуклое малоресурсное устойчивое к акцентам определение языка в распознавании речи

Аннотация

Глобализация и мультикультурализм продолжают порождать всё более разнообразные речевые варианты. Однако современные системы устного диалога часто дают сбои при работе с недостаточно представленными диалектами и акцентами, неверно идентифицируя входной язык и вызывая каскадные ошибки в последующих диалоговых задачах. Решение проблемы диалектной вариативности в условиях ограниченных ресурсов остаётся открытой задачей, поскольку стандартная тонкая настройка требует больших вычислительных затрат и подвержена переобучению на многомерных речевых данных. Мы предлагаем Convex Language Detection (CLD) — новую структуру, которая интегрирует теоретически обоснованные методы выпуклой оптимизации в конвейер систем устного диалога. Наш метод эффективно реализуется с помощью многопроцессорного метода множителей с переменным направлением (ADMM) в JAX, что обеспечивает глобальные гарантии оптимальности и быстрое обучение за полиномиальное время. Теоретически мы доказываем, что наша выпуклая целевая функция обеспечивает сертифицированную робастность границ и предоставляет гарантии против возмущений признаков. Эмпирически мы демонстрируем эффективность по выборке и устойчивость к диалектной вариативности входных данных, достигая точности 97–98% в сложных условиях с ограниченными ресурсами. Наш пакет с открытым исходным кодом доступен по адресу https://pypi.org/project/jaxcld/.

English

Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/