MI-Fuse: Слияние меток для адаптации домена без учителя с использованием закрытой языковой модели для больших аудиоданных
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
September 25, 2025
Авторы: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI
Аннотация
Крупные аудио-языковые модели (LALMs) демонстрируют высокую способность к решению речевых задач в режиме zero-shot, что указывает на их перспективность для распознавания эмоций в речи (SER). Однако в реальных условиях развертывания SER часто терпит неудачи из-за несоответствия доменов, когда исходные данные недоступны, а мощные LALMs доступны только через API. Мы задаемся вопросом: можно ли, имея только неразмеченные аудиоданные целевого домена и доступ к LALM через API, адаптировать студенческую модель так, чтобы она превзошла LALM в целевом домене? Для решения этой задачи мы предлагаем MI-Fuse — фреймворк для объединения денойзированных меток, который дополняет LALM классификатором SER, обученным на исходном домене, в качестве вспомогательного учителя. Фреймворк извлекает несколько стохастических предсказаний от обоих учителей, взвешивает их средние распределения на основе неопределенности, измеряемой взаимной информацией, и стабилизирует обучение с помощью учителя, основанного на экспоненциальном скользящем среднем. Эксперименты на трех публичных наборах данных по эмоциям и шести кросс-доменных переходах показывают стабильные улучшения, при этом студенческая модель превосходит LALM и опережает самый сильный базовый метод на 3,9%. Этот подход усиливает системы распознавания эмоций в речи без необходимости обмена исходными данными, обеспечивая реалистичную адаптацию.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech
tasks, suggesting promise for speech emotion recognition (SER). However, SER in
real-world deployments often fails under domain mismatch, where source data are
unavailable and powerful LALMs are accessible only through an API. We ask:
given only unlabeled target-domain audio and an API-only LALM, can a student
model be adapted to outperform the LALM in the target domain? To this end, we
propose MI-Fuse, a denoised label fusion framework that supplements the LALM
with a source-domain trained SER classifier as an auxiliary teacher. The
framework draws multiple stochastic predictions from both teachers, weights
their mean distributions by mutual-information-based uncertainty, and
stabilizes training with an exponential moving average teacher. Experiments
across three public emotion datasets and six cross-domain transfers show
consistent gains, with the student surpassing the LALM and outperforming the
strongest baseline by 3.9%. This approach strengthens emotion-aware speech
systems without sharing source data, enabling realistic adaptation.