Fusion d'Attention Décomposée dans les MLLM pour le Raisonnement Vidéo sans Entraînement Segmentation
Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
October 22, 2025
papers.authors: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) démontrent une compréhension vidéo robuste en se concentrant sur les tokens visuels pertinents pour les requêtes textuelles. Pour adapter directement cette capacité à la localisation sans nécessiter d'entraînement, nous reformulons la segmentation raisonnée de vidéos comme une tâche de question-réponse vidéo et extrayons les cartes d'attention via un mécanisme de déploiement. Cependant, les cartes d'attention brutes sont bruyantes et mal alignées avec les régions des objets. Nous proposons la Fusion d'Attention Décomposée (DecAF), qui affine ces cartes grâce à deux mécanismes : (1) la fusion contraste objet-arrière-plan et (2) la fusion complémentaire des trames vidéo. Cette méthode supprime les activations non pertinentes et renforce les indices centrés sur les objets, permettant la conversion directe des cartes d'attention en masques de segmentation grossiers. De plus, nous introduisons un guidage par attention pour SAM2 afin d'obtenir des masques à granularité fine. Contrairement aux méthodes existantes qui entraînent conjointement les MLLMs avec SAM, notre méthode fonctionne entièrement sans réentraînement. DecAF surpasse les méthodes sans entraînement et atteint des performances comparables aux méthodes basées sur l'entraînement sur les benchmarks de segmentation vidéo référentielle et raisonnée. Le code sera disponible à l'adresse https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video
understanding by attending to visual tokens relevant to textual queries. To
directly adapt this for localization in a training-free manner, we cast video
reasoning segmentation as a video QA task and extract attention maps via
rollout mechanism. However, raw attention maps are noisy and poorly aligned
with object regions. We propose Decomposed Attention Fusion (DecAF), which
refines these maps through two mechanisms: (1) contrastive object-background
fusion and (2) complementary video-frame fusion. This method suppresses
irrelevant activations and enhances object-focused cues, enabling direct
conversion of attention maps into coarse segmentation masks. In addition, we
introduce attention-guided SAM2 prompting for obtaining fine-grained masks.
Unlike existing methods that jointly train MLLMs with SAM, our method operates
entirely without retraining. DecAF outperforms training-free methods and
achieves performance comparable to training-based methods on both referring and
reasoning VOS benchmarks. The code will be available at
https://github.com/HYUNJS/DecAF.