ChatPaper.aiChatPaper

Zerlegte Aufmerksamkeitsfusion in MLLMs für trainingsfreie Video-Reasoning-Segmentierung

Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

October 22, 2025
papers.authors: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs) zeigen eine starke Fähigkeit zur Videoverständnis, indem sie visuelle Tokens beachten, die für textuelle Anfragen relevant sind. Um dies direkt für die Lokalisierung in einer trainingsfreien Weise anzupassen, formulieren wir die Video-Reasoning-Segmentierung als eine Video-QA-Aufgabe und extrahieren Aufmerksamkeitskarten über einen Rollout-Mechanismus. Rohaufmerksamkeitskarten sind jedoch verrauscht und schlecht mit Objektregionen ausgerichtet. Wir schlagen Decomposed Attention Fusion (DecAF) vor, das diese Karten durch zwei Mechanismen verfeinert: (1) kontrastive Objekt-Hintergrund-Fusion und (2) komplementäre Video-Frame-Fusion. Diese Methode unterdrückt irrelevante Aktivierungen und verstärkt objektfokussierte Hinweise, wodurch eine direkte Umwandlung von Aufmerksamkeitskarten in grobe Segmentierungsmasken ermöglicht wird. Zusätzlich führen wir SAM2-Prompting mit Aufmerksamkeitsführung ein, um feinkörnige Masken zu erhalten. Im Gegensatz zu bestehenden Methoden, die MLLMs gemeinsam mit SAM trainieren, arbeitet unsere Methode vollständig ohne erneutes Training. DecAF übertrifft trainingsfreie Methoden und erreicht eine Leistung, die mit trainingsbasierten Methoden auf Referenz- und Reasoning-VOS-Benchmarks vergleichbar ist. Der Code wird unter https://github.com/HYUNJS/DecAF verfügbar sein.
English
Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.
PDF41October 23, 2025