ChatPaper.aiChatPaper

MI-Fuse : Fusion d'étiquettes pour l'adaptation de domaine non supervisée avec un modèle de langage audio de grande envergure à source fermée

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

September 25, 2025
papers.authors: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI

papers.abstract

Les grands modèles audio-langage (LALMs) démontrent une forte capacité de généralisation en zero-shot pour les tâches de traitement de la parole, suggérant un potentiel prometteur pour la reconnaissance des émotions dans la parole (SER). Cependant, la SER dans des déploiements réels échoue souvent en cas de décalage de domaine, où les données sources sont indisponibles et où les puissants LALMs ne sont accessibles que via une API. Nous posons la question suivante : étant donné uniquement des audios non étiquetés du domaine cible et un LALM accessible uniquement par API, un modèle étudiant peut-il être adapté pour surpasser le LALM dans le domaine cible ? À cette fin, nous proposons MI-Fuse, un cadre de fusion d'étiquettes débruité qui complète le LALM avec un classificateur SER entraîné sur le domaine source en tant qu'enseignant auxiliaire. Le cadre tire plusieurs prédictions stochastiques des deux enseignants, pondère leurs distributions moyennes par une incertitude basée sur l'information mutuelle, et stabilise l'entraînement avec un enseignant à moyenne mobile exponentielle. Les expériences menées sur trois ensembles de données publics d'émotions et six transferts inter-domaines montrent des gains constants, avec le modèle étudiant surpassant le LALM et dépassant le meilleur modèle de référence de 3,9 %. Cette approche renforce les systèmes de parole sensibles aux émotions sans partager les données sources, permettant une adaptation réaliste.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.
PDF22September 26, 2025