ChatPaper.aiChatPaper

MI-Fuse: Слияние меток для адаптации домена без учителя с использованием закрытой языковой модели для больших аудиоданных

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

September 25, 2025
Авторы: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI

Аннотация

Крупные аудио-языковые модели (LALMs) демонстрируют высокую способность к решению речевых задач в режиме zero-shot, что указывает на их перспективность для распознавания эмоций в речи (SER). Однако в реальных условиях развертывания SER часто терпит неудачи из-за несоответствия доменов, когда исходные данные недоступны, а мощные LALMs доступны только через API. Мы задаемся вопросом: можно ли, имея только неразмеченные аудиоданные целевого домена и доступ к LALM через API, адаптировать студенческую модель так, чтобы она превзошла LALM в целевом домене? Для решения этой задачи мы предлагаем MI-Fuse — фреймворк для объединения денойзированных меток, который дополняет LALM классификатором SER, обученным на исходном домене, в качестве вспомогательного учителя. Фреймворк извлекает несколько стохастических предсказаний от обоих учителей, взвешивает их средние распределения на основе неопределенности, измеряемой взаимной информацией, и стабилизирует обучение с помощью учителя, основанного на экспоненциальном скользящем среднем. Эксперименты на трех публичных наборах данных по эмоциям и шести кросс-доменных переходах показывают стабильные улучшения, при этом студенческая модель превосходит LALM и опережает самый сильный базовый метод на 3,9%. Этот подход усиливает системы распознавания эмоций в речи без необходимости обмена исходными данными, обеспечивая реалистичную адаптацию.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.
PDF22September 26, 2025