Sehen Sie, was ich meine: Abgleich von Bild- und Sprachrepräsentationen für ein videobasiertes feinkörniges Objektverständnis

Zusammenfassung

Wir präsentieren SWIM (See What I Mean), eine neuartige Trainingsstrategie, die visuelle und sprachliche Repräsentationen aufeinander abstimmt, um ein feinkörniges Objektverständnis allein auf der Grundlage von Textaufforderungen zu ermöglichen. Im Gegensatz zu bestehenden Ansätzen, die explizite visuelle Aufforderungen wie Masken oder Punkte erfordern, nutzt SWIM die Maskenüberwachung nur während des Trainings, um die kreismodale Aufmerksamkeit zu lenken, sodass das modell beim Schließen automatisch auf das benutzerspezifizierte Objekt fokussieren kann. Unsere Analyse der kreismodalen Aufmerksamkeit in vortrainierten multimodalen großen Sprachmodellen (MLLMs) offenbart eine systematische Diskrepanz: Attributwörter erzeugen scharfe, lokalisierte Aktivierungen in der visuellen Modalität, während Objektnomen aufgrund eines semantischen Referenzbias und verteilter hochrangiger Repräsentationen diffuse und verstreute Muster aufweisen. Um diese Fehlausrichtung zu beheben, konstruieren wir NL-Refer, einen angereicherten Datensatz, bei dem jede Objektmaske mit einem präzisen natürlichsprachlichen Referenzausdruck gepaart ist. SWIM extrahiert kreismodale Aufmerksamkeitskarten aus mehreren Schichten von Objektnomen und erzwingt räumliche Konsistenz mit den Ground-Truth-Masken. Experimentelle Ergebnisse zeigen, dass SWIM die Text-Bild-Ausrichtung erheblich verbessert und auf Benchmarks zum feinkörnigen Objektverständnis eine überlegene Leistung gegenüber auf visuellen Aufforderungen basierenden Methoden erzielt. Der Code und die Daten sind verfügbar unter https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.

English

We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.