Gedecomponeerde Aandachtfusie in MLLM's voor Trainingsvrije Videoredenatie Segmentatie
Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
October 22, 2025
Auteurs: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) tonen een sterk begrip van video's door aandacht te besteden aan visuele tokens die relevant zijn voor tekstuele queries. Om dit direct aan te passen voor lokalisatie op een trainingsvrije manier, formuleren we videoredeneersegmentatie als een video-QA-taak en extraheren we aandachtkaarten via een rollout-mechanisme. Echter, ruwe aandachtkaarten zijn ongestructureerd en slecht uitgelijnd met objectregio's. Wij stellen Decomposed Attention Fusion (DecAF) voor, dat deze kaarten verfijnt via twee mechanismen: (1) contrastieve object-achtergrondfusie en (2) complementaire video-frame-fusie. Deze methode onderdrukt irrelevante activaties en versterkt objectgerichte signalen, waardoor directe conversie van aandachtkaarten naar grove segmentatiemaskers mogelijk wordt. Daarnaast introduceren we aandacht-gestuurde SAM2-prompting voor het verkrijgen van fijnmazige maskers. In tegenstelling tot bestaande methoden die MLLMs gezamenlijk trainen met SAM, werkt onze methode volledig zonder hertraining. DecAF overtreft trainingsvrije methoden en bereikt prestaties die vergelijkbaar zijn met trainingsgebaseerde methoden op zowel verwijzende als redenerende VOS-benchmarks. De code zal beschikbaar zijn op https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video
understanding by attending to visual tokens relevant to textual queries. To
directly adapt this for localization in a training-free manner, we cast video
reasoning segmentation as a video QA task and extract attention maps via
rollout mechanism. However, raw attention maps are noisy and poorly aligned
with object regions. We propose Decomposed Attention Fusion (DecAF), which
refines these maps through two mechanisms: (1) contrastive object-background
fusion and (2) complementary video-frame fusion. This method suppresses
irrelevant activations and enhances object-focused cues, enabling direct
conversion of attention maps into coarse segmentation masks. In addition, we
introduce attention-guided SAM2 prompting for obtaining fine-grained masks.
Unlike existing methods that jointly train MLLMs with SAM, our method operates
entirely without retraining. DecAF outperforms training-free methods and
achieves performance comparable to training-based methods on both referring and
reasoning VOS benchmarks. The code will be available at
https://github.com/HYUNJS/DecAF.