MI-Fuse: Label-Fusion für unüberwachte Domänenanpassung mit geschlossenen großen Audio-Sprachmodellen
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
September 25, 2025
papers.authors: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI
papers.abstract
Große Audio-Sprachmodelle (Large Audio-Language Models, LALMs) zeigen eine starke Zero-Shot-Fähigkeit bei Sprachaufgaben, was vielversprechend für die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist. Allerdings scheitert SER in realen Einsatzszenarien häufig an Domänenunterschieden, bei denen Quelldaten nicht verfügbar sind und leistungsstarke LALMs nur über eine API zugänglich sind. Wir stellen die Frage: Kann ein Schülermodell, das nur unmarkierte Audio-Daten aus der Zieldomäne und eine API-basierte LALM nutzt, an die Zieldomäne angepasst werden, um die LALM zu übertreffen? Zu diesem Zweck schlagen wir MI-Fuse vor, ein Framework zur fusionierten Etikettierung mit Rauschunterdrückung, das die LALM durch einen in der Quelldomäne trainierten SER-Klassifikator als zusätzlichen Lehrer ergänzt. Das Framework zieht mehrere stochastische Vorhersagen von beiden Lehrern, gewichtet ihre mittleren Verteilungen auf Basis von Unsicherheiten, die auf gegenseitiger Information basieren, und stabilisiert das Training mit einem Lehrer, der einen exponentiell gleitenden Durchschnitt verwendet. Experimente über drei öffentliche Emotionsdatensätze und sechs domänenübergreifende Übertragungen zeigen konsistente Verbesserungen, wobei der Schüler die LALM übertrifft und den stärksten Baseline-Ansatz um 3,9 % übertrifft. Dieser Ansatz stärkt emotionssensitive Sprachsysteme, ohne Quelldaten teilen zu müssen, und ermöglicht eine realistische Anpassung.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech
tasks, suggesting promise for speech emotion recognition (SER). However, SER in
real-world deployments often fails under domain mismatch, where source data are
unavailable and powerful LALMs are accessible only through an API. We ask:
given only unlabeled target-domain audio and an API-only LALM, can a student
model be adapted to outperform the LALM in the target domain? To this end, we
propose MI-Fuse, a denoised label fusion framework that supplements the LALM
with a source-domain trained SER classifier as an auxiliary teacher. The
framework draws multiple stochastic predictions from both teachers, weights
their mean distributions by mutual-information-based uncertainty, and
stabilizes training with an exponential moving average teacher. Experiments
across three public emotion datasets and six cross-domain transfers show
consistent gains, with the student surpassing the LALM and outperforming the
strongest baseline by 3.9%. This approach strengthens emotion-aware speech
systems without sharing source data, enabling realistic adaptation.