Decodificación Fork-Merge: Mejorando la Comprensión Multimodal en Modelos de Lenguaje de Gran Escala Audio-Visuales
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
May 27, 2025
Autores: Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
cs.AI
Resumen
El objetivo de este trabajo es mejorar la comprensión multimodal equilibrada en modelos de lenguaje de gran escala audiovisuales (AV-LLMs, por sus siglas en inglés) abordando el sesgo de modalidad sin requerir entrenamiento adicional. En los AV-LLMs actuales, las características de audio y video generalmente se procesan conjuntamente en el decodificador. Si bien esta estrategia facilita una comprensión multimodal unificada, puede introducir un sesgo de modalidad, donde el modelo tiende a depender excesivamente de una modalidad debido a señales de entrenamiento desequilibradas. Para mitigar esto, proponemos Decodificación de Bifurcación-Fusión (FMD, por sus siglas en inglés), una estrategia simple pero efectiva en tiempo de inferencia que no requiere entrenamiento adicional ni modificaciones arquitectónicas. FMD primero realiza un razonamiento específico por modalidad procesando entradas de solo audio y solo video a través de las primeras capas del decodificador (fase de bifurcación), y luego fusiona los estados ocultos resultantes para un razonamiento conjunto en las capas restantes (fase de fusión). Este enfoque promueve contribuciones equilibradas de las modalidades y aprovecha la información complementaria entre ellas. Evaluamos nuestro método en dos AV-LLMs representativos, VideoLLaMA2 y video-SALMONN, utilizando tres conjuntos de datos de referencia. Los resultados experimentales demuestran mejoras consistentes en el rendimiento en tareas centradas en razonamiento de audio, video y combinado audiovisual, lo que evidencia la efectividad de las intervenciones en tiempo de inferencia para una comprensión multimodal robusta.
English
The goal of this work is to enhance balanced multimodal understanding in
audio-visual large language models (AV-LLMs) by addressing modality bias
without requiring additional training. In current AV-LLMs, audio and video
features are typically processed jointly in the decoder. While this strategy
facilitates unified multimodal understanding, it may introduce modality bias,
where the model tends to over-rely on one modality due to imbalanced training
signals. To mitigate this, we propose Fork-Merge Decoding (FMD), a simple yet
effective inference-time strategy that requires no additional training or
architectural modifications. FMD first performs modality-specific reasoning by
processing audio-only and video-only inputs through the early decoder layers (a
fork phase), and then merges the resulting hidden states for joint reasoning in
the remaining layers (a merge phase). This approach promotes balanced modality
contributions and leverages complementary information across modalities. We
evaluate our method on two representative AV-LLMs, VideoLLaMA2 and
video-SALMONN, using three benchmark datasets. Experimental results demonstrate
consistent performance improvements on tasks focused on audio, video, and
combined audio-visual reasoning, demonstrating the effectiveness of
inference-time interventions for robust multimodal understanding.