Décodage Fork-Merge : Amélioration de la compréhension multimodale dans les grands modèles de langage audio-visuels
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
papers.authors: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
papers.abstract
L'objectif de ce travail est d'améliorer la compréhension multimodale équilibrée dans les grands modèles de langage audio-visuels (AV-LLMs) en abordant le biais de modalité sans nécessiter d'entraînement supplémentaire. Dans les AV-LLMs actuels, les caractéristiques audio et vidéo sont généralement traitées conjointement dans le décodeur. Bien que cette stratégie facilite une compréhension multimodale unifiée, elle peut introduire un biais de modalité, où le modèle a tendance à trop s'appuyer sur une modalité en raison de signaux d'entraînement déséquilibrés. Pour atténuer ce problème, nous proposons le décodage Fork-Merge (FMD), une stratégie simple mais efficace au moment de l'inférence qui ne nécessite ni entraînement supplémentaire ni modifications architecturales. Le FMD effectue d'abord un raisonnement spécifique à chaque modalité en traitant les entrées audio uniquement et vidéo uniquement à travers les premières couches du décodeur (phase de fork), puis fusionne les états cachés résultants pour un raisonnement conjoint dans les couches restantes (phase de merge). Cette approche favorise des contributions équilibrées des modalités et exploite les informations complémentaires entre les modalités. Nous évaluons notre méthode sur deux AV-LLMs représentatifs, VideoLLaMA2 et video-SALMONN, en utilisant trois ensembles de données de référence. Les résultats expérimentaux montrent des améliorations constantes des performances sur des tâches axées sur le raisonnement audio, vidéo et audio-visuel combiné, démontrant l'efficacité des interventions au moment de l'inférence pour une compréhension multimodale robuste.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.