RefAM : Aimants d'Attention pour la Segmentation de Référence en Zéro-Shot
RefAM: Attention Magnets for Zero-Shot Referral Segmentation
September 26, 2025
papers.authors: Anna Kukleva, Enis Simsar, Alessio Tonioni, Muhammad Ferjad Naeem, Federico Tombari, Jan Eric Lenssen, Bernt Schiele
cs.AI
papers.abstract
La plupart des approches existantes en segmentation référentielle atteignent des performances élevées uniquement par le biais de finetuning ou en combinant plusieurs modèles pré-entraînés, souvent au prix d’un entraînement supplémentaire et de modifications architecturales. Par ailleurs, les modèles génératifs de diffusion à grande échelle encodent des informations sémantiques riches, ce qui les rend attractifs en tant qu’extracteurs de caractéristiques polyvalents. Dans ce travail, nous introduisons une nouvelle méthode qui exploite directement les caractéristiques, notamment les scores d’attention, issus de transformateurs de diffusion pour des tâches en aval, sans nécessiter de modifications architecturales ni d’entraînement supplémentaire. Pour évaluer systématiquement ces caractéristiques, nous étendons les benchmarks avec des tâches de référencement visuel-linguistique couvrant à la fois les images et les vidéos. Notre idée clé est que les mots vides agissent comme des aimants d’attention : ils accumulent un surplus d’attention et peuvent être filtrés pour réduire le bruit. De plus, nous identifions des puits d’attention globaux (GAS) émergeant dans les couches plus profondes et montrons qu’ils peuvent être supprimés ou redirigés vers des tokens auxiliaires en toute sécurité, conduisant à des cartes de référencement plus précises et plus nettes. Nous proposons également une stratégie de redistribution de l’attention, où des mots vides ajoutés partitionnent les activations de fond en clusters plus petits, produisant des cartes thermiques plus localisées et plus nettes. Sur la base de ces découvertes, nous développons RefAM, un cadre simple de référencement sans entraînement qui combine des cartes d’attention croisée, la gestion des GAS et la redistribution. Sur les benchmarks de segmentation référentielle d’images et de vidéos en zero-shot, notre approche surpasse systématiquement les méthodes précédentes, établissant un nouvel état de l’art sans finetuning ni composants supplémentaires.
English
Most existing approaches to referring segmentation achieve strong performance
only through fine-tuning or by composing multiple pre-trained models, often at
the cost of additional training and architectural modifications. Meanwhile,
large-scale generative diffusion models encode rich semantic information,
making them attractive as general-purpose feature extractors. In this work, we
introduce a new method that directly exploits features, attention scores, from
diffusion transformers for downstream tasks, requiring neither architectural
modifications nor additional training. To systematically evaluate these
features, we extend benchmarks with vision-language grounding tasks spanning
both images and videos. Our key insight is that stop words act as attention
magnets: they accumulate surplus attention and can be filtered to reduce noise.
Moreover, we identify global attention sinks (GAS) emerging in deeper layers
and show that they can be safely suppressed or redirected onto auxiliary
tokens, leading to sharper and more accurate grounding maps. We further propose
an attention redistribution strategy, where appended stop words partition
background activations into smaller clusters, yielding sharper and more
localized heatmaps. Building on these findings, we develop RefAM, a simple
training-free grounding framework that combines cross-attention maps, GAS
handling, and redistribution. Across zero-shot referring image and video
segmentation benchmarks, our approach consistently outperforms prior methods,
establishing a new state of the art without fine-tuning or additional
components.