MI-Fuse: Label-fusie voor onbewaakte domeinaanpassing met een closed-source groot-audio taalmodel
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
September 25, 2025
Auteurs: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI
Samenvatting
Grote audio-taalmodelen (LALMs) tonen een sterke zero-shot-capaciteit bij spraaktaken, wat beloftevol is voor spraakemotieherkenning (SER). Echter faalt SER in praktijkimplementaties vaak onder domeinmismatch, waarbij brondata niet beschikbaar zijn en krachtige LALMs alleen toegankelijk zijn via een API. We stellen de vraag: kan een studentmodel, gegeven alleen ongelabelde doel-domein audio en een API-only LALM, worden aangepast om het LALM in het doeldomein te overtreffen? Hiertoe stellen we MI-Fuse voor, een gedenoisd label-fusiekader dat het LALM aanvult met een in het brondomein getrainde SER-classificator als aanvullende leraar. Het kader haalt meerdere stochastische voorspellingen op van beide leraren, weegt hun gemiddelde verdelingen op basis van wederzijdse-informatie-gerelateerde onzekerheid, en stabiliseert de training met een exponentieel voortschrijdend gemiddelde leraar. Experimenten over drie openbare emotiedatasets en zes domeinoverschrijdende transfers tonen consistente verbeteringen, waarbij de student het LALM overtreft en de sterkste baseline met 3,9% verslaat. Deze aanpak versterkt emotiebewuste spraaksystemen zonder brondata te delen, waardoor realistische aanpassing mogelijk wordt.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech
tasks, suggesting promise for speech emotion recognition (SER). However, SER in
real-world deployments often fails under domain mismatch, where source data are
unavailable and powerful LALMs are accessible only through an API. We ask:
given only unlabeled target-domain audio and an API-only LALM, can a student
model be adapted to outperform the LALM in the target domain? To this end, we
propose MI-Fuse, a denoised label fusion framework that supplements the LALM
with a source-domain trained SER classifier as an auxiliary teacher. The
framework draws multiple stochastic predictions from both teachers, weights
their mean distributions by mutual-information-based uncertainty, and
stabilizes training with an exponential moving average teacher. Experiments
across three public emotion datasets and six cross-domain transfers show
consistent gains, with the student surpassing the LALM and outperforming the
strongest baseline by 3.9%. This approach strengthens emotion-aware speech
systems without sharing source data, enabling realistic adaptation.