Fusión de Atención Descompuesta en MLLM para Segmentación de Razonamiento en Vídeo sin Entrenamiento
Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
October 22, 2025
Autores: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) demuestran una sólida comprensión de videos al atender a tokens visuales relevantes para consultas textuales. Para adaptar directamente esto a la localización de manera libre de entrenamiento, planteamos la segmentación de razonamiento en video como una tarea de preguntas y respuestas (QA) en video y extraemos mapas de atención mediante un mecanismo de despliegue (rollout). Sin embargo, los mapas de atención en bruto son ruidosos y están pobremente alineados con las regiones de los objetos. Proponemos la Fusión de Atención Descompuesta (DecAF, por sus siglas en inglés), que refina estos mapas a través de dos mecanismos: (1) fusión contraste objeto-fondo y (2) fusión complementaria de fotogramas de video. Este método suprime activaciones irrelevantes y mejora las señales enfocadas en objetos, permitiendo la conversión directa de mapas de atención en máscaras de segmentación gruesas. Además, introducimos el prompting guiado por atención SAM2 para obtener máscaras de grano fino. A diferencia de los métodos existentes que entrenan conjuntamente MLLMs con SAM, nuestro método opera completamente sin necesidad de reentrenamiento. DecAF supera a los métodos libres de entrenamiento y alcanza un rendimiento comparable a los métodos basados en entrenamiento en benchmarks de segmentación de objetos en video referencial y de razonamiento. El código estará disponible en https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video
understanding by attending to visual tokens relevant to textual queries. To
directly adapt this for localization in a training-free manner, we cast video
reasoning segmentation as a video QA task and extract attention maps via
rollout mechanism. However, raw attention maps are noisy and poorly aligned
with object regions. We propose Decomposed Attention Fusion (DecAF), which
refines these maps through two mechanisms: (1) contrastive object-background
fusion and (2) complementary video-frame fusion. This method suppresses
irrelevant activations and enhances object-focused cues, enabling direct
conversion of attention maps into coarse segmentation masks. In addition, we
introduce attention-guided SAM2 prompting for obtaining fine-grained masks.
Unlike existing methods that jointly train MLLMs with SAM, our method operates
entirely without retraining. DecAF outperforms training-free methods and
achieves performance comparable to training-based methods on both referring and
reasoning VOS benchmarks. The code will be available at
https://github.com/HYUNJS/DecAF.