Voir ce que je veux dire : aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans des vidéos

Résumé

Nous présentons SWIM (See What I Mean), une nouvelle stratégie d'entraînement qui aligne les représentations visuelles et linguistiques pour permettre une compréhension fine des objets uniquement à partir de prompts textuels. Contrairement aux approches existantes qui nécessitent des prompts visuels explicites, tels que des masques ou des points, SWIM exploite la supervision par masque uniquement pendant l'entraînement pour guider l'attention cross-modale, permettant au modèle de se focaliser automatiquement sur l'objet spécifié par l'utilisateur lors de l'inférence. Notre analyse de l'attention croisée des modèles de langage multimodaux pré-entraînés (MLLMs) révèle une divergence systématique : les mots d'attribut produisent des activations nettes et localisées dans la modalité visuelle, tandis que les noms d'objets génèrent des motifs diffus et dispersés en raison d'un biais de référence sémantique et de représentations distribuées de haut niveau. Pour remédier à ce désalignement, nous construisons NL-Refer, un ensemble de données enrichi, dans lequel chaque masque d'objet est associé à une expression référentielle précise en langage naturel. SWIM extrait des cartes d'attention croisée multi-couches à partir des noms d'objets et impose une cohérence spatiale avec les masques de vérité terrain. Les résultats expérimentaux démontrent que SWIM améliore considérablement l'alignement texte-visuel et atteint des performances supérieures aux méthodes basées sur des prompts visuels sur des benchmarks de compréhension fine des objets. Le code et les données sont disponibles à l'adresse https://github.com/HumanMLLM/SWIM.

English

We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.