Fork-Merge-Decodierung: Verbesserung des multimodalen Verständnisses in audiovisuellen Large Language Models
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Autoren: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Zusammenfassung
Das Ziel dieser Arbeit ist es, ein ausgewogenes multimodales Verständnis in audiovisuellen großen Sprachmodellen (AV-LLMs) zu verbessern, indem Modalbias adressiert wird, ohne zusätzliches Training zu erfordern. In aktuellen AV-LLMs werden Audio- und Videomerkmale typischerweise gemeinsam im Decoder verarbeitet. Während diese Strategie ein einheitliches multimodales Verständnis erleichtert, kann sie Modalbias einführen, bei dem das Modell aufgrund unausgewogener Trainingssignale dazu neigt, sich übermäßig auf eine Modalität zu verlassen. Um dies zu mildern, schlagen wir Fork-Merge Decoding (FMD) vor, eine einfache, aber effektive Inferenzzeit-Strategie, die kein zusätzliches Training oder architektonische Änderungen erfordert. FMD führt zunächst modalitätsspezifisches Reasoning durch, indem ausschließlich Audio- und ausschließlich Video-Eingaben durch die frühen Decoder-Schichten verarbeitet werden (eine Fork-Phase), und fusioniert dann die resultierenden verborgenen Zustände für gemeinsames Reasoning in den verbleibenden Schichten (eine Merge-Phase). Dieser Ansatz fördert ausgewogene Modalitätsbeiträge und nutzt komplementäre Informationen über die Modalitäten hinweg. Wir evaluieren unsere Methode an zwei repräsentativen AV-LLMs, VideoLLaMA2 und video-SALMONN, unter Verwendung von drei Benchmark-Datensätzen. Die experimentellen Ergebnisse zeigen konsistente Leistungsverbesserungen bei Aufgaben, die sich auf Audio-, Video- und kombinierte audiovisuelle Reasoning konzentrieren, und demonstrieren die Wirksamkeit von Inferenzzeit-Interventionen für robustes multimodales Verständnis.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.