ChatPaper.aiChatPaper

Fusão de Atenção Decomposta em MLLMs para Raciocínio em Vídeo sem Treinamento e Segmentação

Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

October 22, 2025
Autores: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) demonstram uma forte compreensão de vídeos ao atender a tokens visuais relevantes para consultas textuais. Para adaptar isso diretamente para localização de maneira livre de treinamento, enquadramos a segmentação de raciocínio em vídeo como uma tarefa de Q&A (Question Answering) em vídeo e extraímos mapas de atenção por meio de um mecanismo de rollout. No entanto, os mapas de atenção brutos são ruidosos e mal alinhados com as regiões dos objetos. Propomos o Decomposed Attention Fusion (DecAF), que refina esses mapas por meio de dois mecanismos: (1) fusão contrastiva objeto-fundo e (2) fusão complementar de quadros de vídeo. Esse método suprime ativações irrelevantes e aprimora pistas focadas em objetos, permitindo a conversão direta de mapas de atenção em máscaras de segmentação grosseiras. Além disso, introduzimos o prompting SAM2 guiado por atenção para obter máscaras de granularidade fina. Diferente dos métodos existentes que treinam conjuntamente MLLMs com SAM, nosso método opera completamente sem retreinamento. O DecAF supera métodos livres de treinamento e alcança desempenho comparável a métodos baseados em treinamento em benchmarks de VOS (Video Object Segmentation) de referência e raciocínio. O código estará disponível em https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.
PDF41October 23, 2025