MI-Fuse: Fusione di Etichette per l'Adattamento di Dominio Non Supervisionato con Modelli Linguistici su Grandi Dati Audio a Sorgente Chiusa

Abstract

I grandi modelli audio-linguistici (LALM) dimostrano una forte capacità zero-shot nei compiti legati al parlato, suggerendo un potenziale promettente per il riconoscimento delle emozioni dal parlato (SER). Tuttavia, il SER nelle implementazioni del mondo reale spesso fallisce in caso di disallineamento di dominio, dove i dati di origine non sono disponibili e i potenti LALM sono accessibili solo tramite un'API. Ci chiediamo: dato solo audio non etichettato del dominio target e un LALM accessibile solo tramite API, è possibile adattare un modello studente per superare il LALM nel dominio target? A tal fine, proponiamo MI-Fuse, un framework di fusione delle etichette denoised che integra il LALM con un classificatore SER addestrato sul dominio di origine come insegnante ausiliario. Il framework estrae previsioni stocastiche multiple da entrambi gli insegnanti, pondera le loro distribuzioni medie in base all'incertezza basata sull'informazione reciproca e stabilizza l'addestramento con un insegnante a media mobile esponenziale. Esperimenti su tre dataset pubblici di emozioni e sei trasferimenti cross-domain mostrano guadagni consistenti, con lo studente che supera il LALM e supera il baseline più forte del 3,9%. Questo approccio rafforza i sistemi di riconoscimento delle emozioni dal parlato senza condividere i dati di origine, consentendo un adattamento realistico.

English

Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.

MI-Fuse: Fusione di Etichette per l'Adattamento di Dominio Non Supervisionato con Modelli Linguistici su Grandi Dati Audio a Sorgente Chiusa

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

Abstract

Support