훈련 없이 비디오 추론 및 세분화를 위한 MLLM에서의 분해된 어텐션 융합
Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
October 22, 2025
저자: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 텍스트 쿼리와 관련된 시각적 토큰에 주목함으로써 강력한 비디오 이해 능력을 보여줍니다. 이를 훈련 없이 직접 지역화에 적용하기 위해, 우리는 비디오 추론 세그멘테이션을 비디오 질의응답(QA) 작업으로 간주하고 롤아웃 메커니즘을 통해 주의 맵을 추출합니다. 그러나 원시 주의 맵은 노이즈가 많고 객체 영역과 잘 정렬되지 않습니다. 우리는 이러한 맵을 두 가지 메커니즘을 통해 정제하는 Decomposed Attention Fusion(DecAF)을 제안합니다: (1) 대비 객체-배경 융합 및 (2) 보완적 비디오 프레임 융합. 이 방법은 관련 없는 활성화를 억제하고 객체 중심의 단서를 강화하여 주의 맵을 직접적으로 거친 세그멘테이션 마스크로 변환할 수 있게 합니다. 또한, 세밀한 마스크를 얻기 위해 주의 기반 SAM2 프롬프팅을 도입합니다. 기존의 MLLMs와 SAM을 함께 훈련하는 방법과 달리, 우리의 방법은 재훈련 없이 완전히 작동합니다. DecAF는 훈련이 필요 없는 방법들을 능가하며, 참조 및 추론 VOS 벤치마크에서 훈련 기반 방법과 비슷한 성능을 달성합니다. 코드는 https://github.com/HYUNJS/DecAF에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) demonstrate strong video
understanding by attending to visual tokens relevant to textual queries. To
directly adapt this for localization in a training-free manner, we cast video
reasoning segmentation as a video QA task and extract attention maps via
rollout mechanism. However, raw attention maps are noisy and poorly aligned
with object regions. We propose Decomposed Attention Fusion (DecAF), which
refines these maps through two mechanisms: (1) contrastive object-background
fusion and (2) complementary video-frame fusion. This method suppresses
irrelevant activations and enhances object-focused cues, enabling direct
conversion of attention maps into coarse segmentation masks. In addition, we
introduce attention-guided SAM2 prompting for obtaining fine-grained masks.
Unlike existing methods that jointly train MLLMs with SAM, our method operates
entirely without retraining. DecAF outperforms training-free methods and
achieves performance comparable to training-based methods on both referring and
reasoning VOS benchmarks. The code will be available at
https://github.com/HYUNJS/DecAF.