ChatPaper.aiChatPaper

MI-Fuse: Fusión de Etiquetas para Adaptación de Dominio No Supervisada con Modelo de Lenguaje de Gran Escala de Audio de Código Cerrado

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

September 25, 2025
Autores: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI

Resumen

Los modelos de audio-lenguaje de gran escala (LALMs, por sus siglas en inglés) muestran una fuerte capacidad de zero-shot en tareas de habla, lo que sugiere un potencial prometedor para el reconocimiento de emociones en el habla (SER, por sus siglas en inglés). Sin embargo, el SER en implementaciones del mundo real a menudo falla bajo un desajuste de dominio, donde los datos de origen no están disponibles y los potentes LALMs solo son accesibles a través de una API. Nos preguntamos: dado solo audio del dominio objetivo sin etiquetar y un LALM accesible únicamente a través de una API, ¿puede un modelo estudiante adaptarse para superar al LALM en el dominio objetivo? Con este fin, proponemos MI-Fuse, un marco de fusión de etiquetas desruido que complementa el LALM con un clasificador de SER entrenado en el dominio de origen como un profesor auxiliar. El marco obtiene múltiples predicciones estocásticas de ambos profesores, pondera sus distribuciones medias mediante la incertidumbre basada en información mutua y estabiliza el entrenamiento con un profesor de media móvil exponencial. Los experimentos realizados en tres conjuntos de datos públicos de emociones y seis transferencias cruzadas de dominio muestran ganancias consistentes, con el modelo estudiante superando al LALM y superando al mejor modelo de referencia en un 3.9%. Este enfoque fortalece los sistemas de habla conscientes de las emociones sin compartir datos de origen, permitiendo una adaptación realista.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.
PDF22September 26, 2025