Fork-Merge Decodering: Verbetering van Multimodaal Begrip in Audio-Visuele Grote Taalmodellen
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Auteurs: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Samenvatting
Het doel van dit werk is het verbeteren van gebalanceerde multimodale begrip in audio-visuele grote taalmodellen (AV-LLMs) door het aanpakken van modaliteitsbias zonder extra training te vereisen. In huidige AV-LLMs worden audio- en videokenmerken doorgaans gezamenlijk verwerkt in de decoder. Hoewel deze strategie een verenigd multimodaal begrip bevordert, kan het modaliteitsbias introduceren, waarbij het model de neiging heeft om te veel te leunen op één modaliteit vanwege onevenwichtige trainingssignalen. Om dit te mitigeren, stellen we Fork-Merge Decoding (FMD) voor, een eenvoudige maar effectieve strategie tijdens de inferentie die geen extra training of architectuurwijzigingen vereist. FMD voert eerst modaliteitsspecifieke redenering uit door alleen audio- en alleen video-inputs te verwerken via de vroege decoderlagen (een fork-fase), en voegt vervolgens de resulterende verborgen toestanden samen voor gezamenlijke redenering in de resterende lagen (een merge-fase). Deze aanpak bevordert gebalanceerde bijdragen van modaliteiten en benut complementaire informatie tussen modaliteiten. We evalueren onze methode op twee representatieve AV-LLMs, VideoLLaMA2 en video-SALMONN, met behulp van drie benchmarkdatasets. Experimentele resultaten tonen consistente prestatieverbeteringen aan bij taken gericht op audio, video en gecombineerde audio-visuele redenering, wat de effectiviteit aantoont van interventies tijdens de inferentie voor robuust multimodaal begrip.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.