RefAM: Imanes de Atención para la Segmentación de Referencia Cero-Shot

Resumen

La mayoría de los enfoques existentes para la segmentación referencial logran un rendimiento sólido únicamente mediante ajustes finos o mediante la composición de múltiples modelos preentrenados, a menudo a costa de entrenamientos adicionales y modificaciones arquitectónicas. Mientras tanto, los modelos generativos de difusión a gran escala codifican información semántica rica, lo que los hace atractivos como extractores de características de propósito general. En este trabajo, introducimos un nuevo método que explota directamente las características, específicamente las puntuaciones de atención, de los transformadores de difusión para tareas posteriores, sin requerir modificaciones arquitectónicas ni entrenamiento adicional. Para evaluar sistemáticamente estas características, ampliamos los puntos de referencia con tareas de anclaje visión-lenguaje que abarcan tanto imágenes como videos. Nuestra idea clave es que las palabras de parada actúan como imanes de atención: acumulan un excedente de atención y pueden filtrarse para reducir el ruido. Además, identificamos sumideros de atención global (GAS, por sus siglas en inglés) que emergen en capas más profundas y demostramos que pueden suprimirse o redirigirse de manera segura hacia tokens auxiliares, lo que resulta en mapas de anclaje más nítidos y precisos. Proponemos además una estrategia de redistribución de la atención, donde las palabras de parada añadidas dividen las activaciones del fondo en grupos más pequeños, produciendo mapas de calor más definidos y localizados. Basándonos en estos hallazgos, desarrollamos RefAM, un marco de anclaje simple y libre de entrenamiento que combina mapas de atención cruzada, manejo de GAS y redistribución. En los puntos de referencia de segmentación referencial de imágenes y videos en modo cero-shot, nuestro enfoque supera consistentemente a los métodos anteriores, estableciendo un nuevo estado del arte sin ajustes finos ni componentes adicionales.

English

Most existing approaches to referring segmentation achieve strong performance only through fine-tuning or by composing multiple pre-trained models, often at the cost of additional training and architectural modifications. Meanwhile, large-scale generative diffusion models encode rich semantic information, making them attractive as general-purpose feature extractors. In this work, we introduce a new method that directly exploits features, attention scores, from diffusion transformers for downstream tasks, requiring neither architectural modifications nor additional training. To systematically evaluate these features, we extend benchmarks with vision-language grounding tasks spanning both images and videos. Our key insight is that stop words act as attention magnets: they accumulate surplus attention and can be filtered to reduce noise. Moreover, we identify global attention sinks (GAS) emerging in deeper layers and show that they can be safely suppressed or redirected onto auxiliary tokens, leading to sharper and more accurate grounding maps. We further propose an attention redistribution strategy, where appended stop words partition background activations into smaller clusters, yielding sharper and more localized heatmaps. Building on these findings, we develop RefAM, a simple training-free grounding framework that combines cross-attention maps, GAS handling, and redistribution. Across zero-shot referring image and video segmentation benchmarks, our approach consistently outperforms prior methods, establishing a new state of the art without fine-tuning or additional components.

RefAM: Imanes de Atención para la Segmentación de Referencia Cero-Shot

RefAM: Attention Magnets for Zero-Shot Referral Segmentation

Resumen

Support