Mira lo que quiero decir: Alineando representaciones de visión y lenguaje para la comprensión detallada de objetos en video.

Resumen

Presentamos SWIM (See What I Mean), una estrategia novedosa de entrenamiento que alinea representaciones visuales y lingüísticas para permitir una comprensión detallada de objetos únicamente a partir de instrucciones textuales. A diferencia de los enfoques existentes que requieren instrucciones visuales explícitas, como máscaras o puntos, SWIM aprovecha la supervisión de máscaras solo durante el entrenamiento para guiar la atención entre modalidades, lo que permite que el modelo atienda automáticamente al objeto especificado por el usuario en la inferencia. Nuestro análisis de atención entre modalidades de modelos de lenguaje grandes multimodales (MLLMs) preentrenados revela una discrepancia sistemática: las palabras de atributo producen activaciones nítidas y localizadas en la modalidad visual, mientras que los sustantivos de objeto generan patrones difusos y dispersos debido al sesgo de referencia semántica y a las representaciones distribuidas de alto nivel. Para abordar esta desalineación, construimos NL-Refer, un conjunto de datos enriquecido en el que cada máscara de objeto se empareja con una expresión de referencia en lenguaje natural precisa. SWIM extrae mapas de atención entre modalidades de múltiples capas a partir de los sustantivos de objeto e impone consistencia espacial con las máscaras de referencia. Los resultados experimentales demuestran que SWIM mejora sustancialmente la alineación texto-visual y logra un rendimiento superior al de los métodos basados en instrucciones visuales en referencias de comprensión detallada de objetos. El código y los datos están disponibles en https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.

English

We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.