Decodificação Fork-Merge: Aprimorando a Compreensão Multimodal em Modelos de Linguagem de Grande Escala Áudio-Visuais
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Autores: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Resumo
O objetivo deste trabalho é aprimorar a compreensão multimodal equilibrada em modelos de linguagem de grande escala audiovisual (AV-LLMs) ao abordar o viés de modalidade sem a necessidade de treinamento adicional. Nos AV-LLMs atuais, os recursos de áudio e vídeo são tipicamente processados em conjunto no decodificador. Embora essa estratégia facilite a compreensão multimodal unificada, ela pode introduzir um viés de modalidade, onde o modelo tende a depender excessivamente de uma modalidade devido a sinais de treinamento desequilibrados. Para mitigar isso, propomos o Decodificador Fork-Merge (FMD), uma estratégia simples, porém eficaz, aplicada durante a inferência que não requer treinamento adicional ou modificações arquitetônicas. O FMD primeiro realiza o raciocínio específico por modalidade ao processar entradas exclusivas de áudio e vídeo nas primeiras camadas do decodificador (fase de fork) e, em seguida, mescla os estados ocultos resultantes para o raciocínio conjunto nas camadas restantes (fase de merge). Essa abordagem promove contribuições equilibradas das modalidades e aproveita informações complementares entre elas. Avaliamos nosso método em dois AV-LLMs representativos, VideoLLaMA2 e video-SALMONN, utilizando três conjuntos de dados de referência. Os resultados experimentais demonstram melhorias consistentes de desempenho em tarefas focadas em raciocínio de áudio, vídeo e audiovisual combinado, evidenciando a eficácia de intervenções durante a inferência para uma compreensão multimodal robusta.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.