MI-Fuse: Fusão de Rótulos para Adaptação de Domínio Não Supervisionada com Modelo de Linguagem de Grande Escala de Áudio de Código Fechado
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
September 25, 2025
Autores: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
cs.AI
Resumo
Modelos grandes de áudio-linguagem (LALMs, do inglês Large Audio-Language Models) demonstram forte capacidade zero-shot em tarefas de fala, sugerindo potencial para reconhecimento de emoções em fala (SER, do inglês Speech Emotion Recognition). No entanto, o SER em implantações do mundo real frequentemente falha sob incompatibilidade de domínio, onde os dados de origem não estão disponíveis e LALMs poderosos são acessíveis apenas por meio de uma API. Nós questionamos: dado apenas áudio não rotulado do domínio de destino e um LALM acessível apenas por API, um modelo estudante pode ser adaptado para superar o LALM no domínio de destino? Para isso, propomos o MI-Fuse, uma estrutura de fusão de rótulos desnaturada que complementa o LALM com um classificador SER treinado no domínio de origem como um professor auxiliar. A estrutura obtém múltiplas previsões estocásticas de ambos os professores, pondera suas distribuições médias com base na incerteza calculada por informação mútua e estabiliza o treinamento com um professor de média móvel exponencial. Experimentos em três conjuntos de dados públicos de emoções e seis transferências cruzadas de domínio mostram ganhos consistentes, com o estudante superando o LALM e ultrapassando a linha de base mais forte em 3,9%. Essa abordagem fortalece sistemas de fala conscientes de emoções sem compartilhar dados de origem, permitindo uma adaptação realista.
English
Large audio-language models (LALMs) show strong zero-shot ability on speech
tasks, suggesting promise for speech emotion recognition (SER). However, SER in
real-world deployments often fails under domain mismatch, where source data are
unavailable and powerful LALMs are accessible only through an API. We ask:
given only unlabeled target-domain audio and an API-only LALM, can a student
model be adapted to outperform the LALM in the target domain? To this end, we
propose MI-Fuse, a denoised label fusion framework that supplements the LALM
with a source-domain trained SER classifier as an auxiliary teacher. The
framework draws multiple stochastic predictions from both teachers, weights
their mean distributions by mutual-information-based uncertainty, and
stabilizes training with an exponential moving average teacher. Experiments
across three public emotion datasets and six cross-domain transfers show
consistent gains, with the student surpassing the LALM and outperforming the
strongest baseline by 3.9%. This approach strengthens emotion-aware speech
systems without sharing source data, enabling realistic adaptation.