ChatPaper.aiChatPaper

Fusione dell'Attenzione Decomposta nei MLLM per la Segmentazione del Ragionamento Video Senza Addestramento

Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

October 22, 2025
Autori: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLMs) dimostrano una forte capacità di comprensione video focalizzandosi su token visivi rilevanti per le query testuali. Per adattare direttamente questa capacità alla localizzazione in modo privo di addestramento, trasformiamo la segmentazione basata sul ragionamento video in un task di domanda-risposta video e estraiamo mappe di attenzione tramite un meccanismo di rollout. Tuttavia, le mappe di attenzione grezze sono rumorose e mal allineate con le regioni degli oggetti. Proponiamo la Fusione di Attenzione Decomposta (DecAF), che affina queste mappe attraverso due meccanismi: (1) fusione contrastiva oggetto-sfondo e (2) fusione complementare dei frame video. Questo metodo sopprime le attivazioni irrilevanti e migliora i segnali focalizzati sugli oggetti, consentendo la conversione diretta delle mappe di attenzione in maschere di segmentazione approssimative. Inoltre, introduciamo il prompting SAM2 guidato dall'attenzione per ottenere maschere più dettagliate. A differenza dei metodi esistenti che addestrano congiuntamente MLLMs con SAM, il nostro metodo opera completamente senza riaddestramento. DecAF supera i metodi privi di addestramento e raggiunge prestazioni comparabili ai metodi basati su addestramento sia sui benchmark di segmentazione video referenziale che di ragionamento. Il codice sarà disponibile all'indirizzo https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.
PDF41October 23, 2025