Пойми, что я имею в виду: Согласование визуальных и языковых представлений для тонкозернистого понимания объектов в видео

Аннотация

Мы представляем SWIM (See What I Mean) — новую стратегию обучения, которая выравнивает представления зрения и языка для достижения тонкозернистого понимания объектов исключительно по текстовым запросам. В отличие от существующих подходов, требующих явных визуальных подсказок, таких как маски или точки, SWIM использует маски в качестве супервизии только во время обучения для направления кросс-модального внимания, что позволяет модели автоматически фокусироваться на указанном пользователем объекте на этапе инференса. Наш анализ кросс-внимания предварительно обученных мультимодальных больших языковых моделей (MLLM) выявляет систематическое несоответствие: слова-атрибуты генерируют резкие, локализованные активации в визуальной модальности, тогда как существительные, обозначающие объекты, дают размытые и рассеянные паттерны из-за семантического смещения референции и распределенных высокоуровневых представлений. Для устранения этого несоответствия мы создали NL-Refer — обогащенный набор данных, в котором каждая маска объекта сопоставлена с точным естественно-языковым выражением референции. SWIM извлекает многослойные карты кросс-внимания от существительных объектов и обеспечивает пространственную согласованность с эталонными масками. Экспериментальные результаты показывают, что SWIM значительно улучшает текстово-визуальное выравнивание и превосходит методы, основанные на визуальных подсказках, на бенчмарках тонкозернистого понимания объектов. Код и данные доступны по адресу https://github.com/HumanMLLM/SWIM.

English

We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.