Разложение внимания и слияние в многомодальных языковых моделях для обучения без тренировки в задачах анализа видео и сегментации
Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
October 22, 2025
Авторы: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокий уровень понимания видео, фокусируясь на визуальных токенах, релевантных текстовым запросам. Чтобы адаптировать это для локализации без необходимости обучения, мы преобразуем задачу сегментации на основе рассуждений в видео в задачу вопросно-ответной системы (QA) и извлекаем карты внимания с помощью механизма rollout. Однако исходные карты внимания зашумлены и плохо согласованы с областями объектов. Мы предлагаем метод Decomposed Attention Fusion (DecAF), который уточняет эти карты с помощью двух механизмов: (1) контрастного слияния объекта и фона и (2) комплементарного слияния кадров видео. Этот метод подавляет нерелевантные активации и усиливает сигналы, связанные с объектами, что позволяет напрямую преобразовывать карты внимания в грубые маски сегментации. Кроме того, мы вводим метод attention-guided SAM2 prompting для получения детализированных масок. В отличие от существующих подходов, которые совместно обучают MLLMs с SAM, наш метод полностью обходится без переобучения. DecAF превосходит методы, не требующие обучения, и достигает производительности, сопоставимой с методами, основанными на обучении, на бенчмарках для задач ссылочной и рассуждающей сегментации видео (VOS). Код будет доступен по адресу https://github.com/HYUNJS/DecAF.
English
Multimodal large language models (MLLMs) demonstrate strong video
understanding by attending to visual tokens relevant to textual queries. To
directly adapt this for localization in a training-free manner, we cast video
reasoning segmentation as a video QA task and extract attention maps via
rollout mechanism. However, raw attention maps are noisy and poorly aligned
with object regions. We propose Decomposed Attention Fusion (DecAF), which
refines these maps through two mechanisms: (1) contrastive object-background
fusion and (2) complementary video-frame fusion. This method suppresses
irrelevant activations and enhances object-focused cues, enabling direct
conversion of attention maps into coarse segmentation masks. In addition, we
introduce attention-guided SAM2 prompting for obtaining fine-grained masks.
Unlike existing methods that jointly train MLLMs with SAM, our method operates
entirely without retraining. DecAF outperforms training-free methods and
achieves performance comparable to training-based methods on both referring and
reasoning VOS benchmarks. The code will be available at
https://github.com/HYUNJS/DecAF.