Fusión de Atención Descompuesta en MLLM para Segmentación de Razonamiento en Vídeo sin Entrenamiento

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) demuestran una sólida comprensión de videos al atender a tokens visuales relevantes para consultas textuales. Para adaptar directamente esto a la localización de manera libre de entrenamiento, planteamos la segmentación de razonamiento en video como una tarea de preguntas y respuestas (QA) en video y extraemos mapas de atención mediante un mecanismo de despliegue (rollout). Sin embargo, los mapas de atención en bruto son ruidosos y están pobremente alineados con las regiones de los objetos. Proponemos la Fusión de Atención Descompuesta (DecAF, por sus siglas en inglés), que refina estos mapas a través de dos mecanismos: (1) fusión contraste objeto-fondo y (2) fusión complementaria de fotogramas de video. Este método suprime activaciones irrelevantes y mejora las señales enfocadas en objetos, permitiendo la conversión directa de mapas de atención en máscaras de segmentación gruesas. Además, introducimos el prompting guiado por atención SAM2 para obtener máscaras de grano fino. A diferencia de los métodos existentes que entrenan conjuntamente MLLMs con SAM, nuestro método opera completamente sin necesidad de reentrenamiento. DecAF supera a los métodos libres de entrenamiento y alcanza un rendimiento comparable a los métodos basados en entrenamiento en benchmarks de segmentación de objetos en video referencial y de razonamiento. El código estará disponible en https://github.com/HYUNJS/DecAF.

English

Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.

Fusión de Atención Descompuesta en MLLM para Segmentación de Razonamiento en Vídeo sin Entrenamiento

Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

Resumen

Support