Fork-Merge Decoding: Улучшение мультимодального понимания в аудиовизуальных больших языковых моделях
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Авторы: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Аннотация
Цель данной работы — улучшить сбалансированное мультимодальное понимание в аудиовизуальных больших языковых моделях (AV-LLMs), устраняя смещение модальностей без необходимости дополнительного обучения. В современных AV-LLMs аудио- и видеоданные обычно обрабатываются совместно в декодере. Хотя такой подход способствует унифицированному мультимодальному пониманию, он может привести к смещению модальностей, когда модель чрезмерно полагается на одну из них из-за несбалансированных обучающих сигналов. Для устранения этой проблемы мы предлагаем стратегию Fork-Merge Decoding (FMD), простой, но эффективный метод, применяемый на этапе вывода, который не требует дополнительного обучения или изменений архитектуры. FMD сначала выполняет модально-специфическое рассуждение, обрабатывая только аудио- и только видеоданные через начальные слои декодера (фаза "fork"), а затем объединяет полученные скрытые состояния для совместного рассуждения в оставшихся слоях (фаза "merge"). Такой подход способствует сбалансированному вкладу модальностей и использованию дополнительной информации между ними. Мы оцениваем наш метод на двух репрезентативных AV-LLMs, VideoLLaMA2 и video-SALMONN, используя три эталонных набора данных. Экспериментальные результаты демонстрируют устойчивое улучшение производительности на задачах, связанных с аудио-, видео- и комбинированным аудиовизуальным рассуждением, подтверждая эффективность вмешательств на этапе вывода для обеспечения надежного мультимодального понимания.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.