Decodifica Fork-Merge: Migliorare la Comprensione Multimodale nei Modelli Linguistici di Grande Scala Audio-Visivi
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Autori: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Abstract
L'obiettivo di questo lavoro è migliorare la comprensione multimodale bilanciata nei modelli linguistici di grandi dimensioni audio-visivi (AV-LLM) affrontando il bias di modalità senza richiedere ulteriore addestramento. Negli attuali AV-LLM, le caratteristiche audio e video sono tipicamente elaborate congiuntamente nel decoder. Sebbene questa strategia faciliti una comprensione multimodale unificata, può introdurre un bias di modalità, in cui il modello tende a fare eccessivo affidamento su una modalità a causa di segnali di addestramento sbilanciati. Per mitigare questo problema, proponiamo il Fork-Merge Decoding (FMD), una strategia semplice ma efficace in fase di inferenza che non richiede ulteriore addestramento o modifiche architetturali. FMD esegue prima un ragionamento specifico per modalità elaborando input esclusivamente audio e esclusivamente video attraverso i primi strati del decoder (fase di fork), per poi unire gli stati nascosti risultanti per un ragionamento congiunto negli strati rimanenti (fase di merge). Questo approccio promuove contributi bilanciati delle modalità e sfrutta informazioni complementari tra le modalità. Valutiamo il nostro metodo su due AV-LLM rappresentativi, VideoLLaMA2 e video-SALMONN, utilizzando tre dataset di benchmark. I risultati sperimentali dimostrano miglioramenti consistenti delle prestazioni su task focalizzati su ragionamento audio, video e audio-visivo combinato, evidenziando l'efficacia degli interventi in fase di inferenza per una comprensione multimodale robusta.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.