Fork-Merge Decodering: Verbetering van Multimodaal Begrip in Audio-Visuele Grote Taalmodellen

Samenvatting

Het doel van dit werk is het verbeteren van gebalanceerde multimodale begrip in audio-visuele grote taalmodellen (AV-LLMs) door het aanpakken van modaliteitsbias zonder extra training te vereisen. In huidige AV-LLMs worden audio- en videokenmerken doorgaans gezamenlijk verwerkt in de decoder. Hoewel deze strategie een verenigd multimodaal begrip bevordert, kan het modaliteitsbias introduceren, waarbij het model de neiging heeft om te veel te leunen op één modaliteit vanwege onevenwichtige trainingssignalen. Om dit te mitigeren, stellen we Fork-Merge Decoding (FMD) voor, een eenvoudige maar effectieve strategie tijdens de inferentie die geen extra training of architectuurwijzigingen vereist. FMD voert eerst modaliteitsspecifieke redenering uit door alleen audio- en alleen video-inputs te verwerken via de vroege decoderlagen (een fork-fase), en voegt vervolgens de resulterende verborgen toestanden samen voor gezamenlijke redenering in de resterende lagen (een merge-fase). Deze aanpak bevordert gebalanceerde bijdragen van modaliteiten en benut complementaire informatie tussen modaliteiten. We evalueren onze methode op twee representatieve AV-LLMs, VideoLLaMA2 en video-SALMONN, met behulp van drie benchmarkdatasets. Experimentele resultaten tonen consistente prestatieverbeteringen aan bij taken gericht op audio, video en gecombineerde audio-visuele redenering, wat de effectiviteit aantoont van interventies tijdens de inferentie voor robuust multimodaal begrip.

English

The goal of this work is to enhance balanced multimodal understanding in audio-visual large language models (AV-LLMs) by addressing modality bias without requiring additional training. In current AV-LLMs, audio and video features are typically processed jointly in the decoder. While this strategy facilitates unified multimodal understanding, it may introduce modality bias, where the model tends to over-rely on one modality due to imbalanced training signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet effective inference-time strategy that requires no additional training or architectural modifications. FMD first performs modality-specific reasoning by processing audio-only and video-only inputs through the early decoder layers (a fork phase), and then merges the resulting hidden states for joint reasoning in the remaining layers (a merge phase). This approach promotes balanced modality contributions and leverages complementary information across modalities. We evaluate our method on two representative AV-LLMs, VideoLLaMA2 and video-SALMONN, using three benchmark datasets. Experimental results demonstrate consistent performance improvements on tasks focused on audio, video, and combined audio-visual reasoning, demonstrating the effectiveness of inference-time interventions for robust multimodal understanding.

Fork-Merge Decodering: Verbetering van Multimodaal Begrip in Audio-Visuele Grote Taalmodellen

Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

Samenvatting

Support