RefAM: Imanes de Atención para la Segmentación de Referencia Cero-Shot
RefAM: Attention Magnets for Zero-Shot Referral Segmentation
September 26, 2025
Autores: Anna Kukleva, Enis Simsar, Alessio Tonioni, Muhammad Ferjad Naeem, Federico Tombari, Jan Eric Lenssen, Bernt Schiele
cs.AI
Resumen
La mayoría de los enfoques existentes para la segmentación referencial logran un rendimiento sólido únicamente mediante ajustes finos o mediante la composición de múltiples modelos preentrenados, a menudo a costa de entrenamientos adicionales y modificaciones arquitectónicas. Mientras tanto, los modelos generativos de difusión a gran escala codifican información semántica rica, lo que los hace atractivos como extractores de características de propósito general. En este trabajo, introducimos un nuevo método que explota directamente las características, específicamente las puntuaciones de atención, de los transformadores de difusión para tareas posteriores, sin requerir modificaciones arquitectónicas ni entrenamiento adicional. Para evaluar sistemáticamente estas características, ampliamos los puntos de referencia con tareas de anclaje visión-lenguaje que abarcan tanto imágenes como videos. Nuestra idea clave es que las palabras de parada actúan como imanes de atención: acumulan un excedente de atención y pueden filtrarse para reducir el ruido. Además, identificamos sumideros de atención global (GAS, por sus siglas en inglés) que emergen en capas más profundas y demostramos que pueden suprimirse o redirigirse de manera segura hacia tokens auxiliares, lo que resulta en mapas de anclaje más nítidos y precisos. Proponemos además una estrategia de redistribución de la atención, donde las palabras de parada añadidas dividen las activaciones del fondo en grupos más pequeños, produciendo mapas de calor más definidos y localizados. Basándonos en estos hallazgos, desarrollamos RefAM, un marco de anclaje simple y libre de entrenamiento que combina mapas de atención cruzada, manejo de GAS y redistribución. En los puntos de referencia de segmentación referencial de imágenes y videos en modo cero-shot, nuestro enfoque supera consistentemente a los métodos anteriores, estableciendo un nuevo estado del arte sin ajustes finos ni componentes adicionales.
English
Most existing approaches to referring segmentation achieve strong performance
only through fine-tuning or by composing multiple pre-trained models, often at
the cost of additional training and architectural modifications. Meanwhile,
large-scale generative diffusion models encode rich semantic information,
making them attractive as general-purpose feature extractors. In this work, we
introduce a new method that directly exploits features, attention scores, from
diffusion transformers for downstream tasks, requiring neither architectural
modifications nor additional training. To systematically evaluate these
features, we extend benchmarks with vision-language grounding tasks spanning
both images and videos. Our key insight is that stop words act as attention
magnets: they accumulate surplus attention and can be filtered to reduce noise.
Moreover, we identify global attention sinks (GAS) emerging in deeper layers
and show that they can be safely suppressed or redirected onto auxiliary
tokens, leading to sharper and more accurate grounding maps. We further propose
an attention redistribution strategy, where appended stop words partition
background activations into smaller clusters, yielding sharper and more
localized heatmaps. Building on these findings, we develop RefAM, a simple
training-free grounding framework that combines cross-attention maps, GAS
handling, and redistribution. Across zero-shot referring image and video
segmentation benchmarks, our approach consistently outperforms prior methods,
establishing a new state of the art without fine-tuning or additional
components.