Семантическая насыщенность или геометрическое мышление? Хрупкость визуальной инвариантности VLM

Аннотация

Данная работа исследует фундаментальную хрупкость современных моделей "визуальный язык" (Vision-Language Models, VLM) при базовых геометрических преобразованиях. Хотя современные VLM преуспевают в семантических задачах, таких как распознавание объектов в канонических ориентациях и описание сложных сцен, они демонстрируют систематические сбои на более фундаментальном уровне: отсутствие устойчивой пространственной инвариантности и эквивариантности, необходимых для надежного определения идентичности объекта при простых поворотах, масштабировании и тождественных преобразованиях. Мы демонстрируем это ограничение с помощью систематической оценки в различных визуальных доменах, включая символические скетчи, натуральные фотографии и абстрактное искусство. Производительность резко падает по мере того, как семантическое содержание становится разреженным, и такое поведение наблюдается для различных архитектур, емкостей моделей и стратегий промптинга. В целом, наши результаты выявляют систематический разрыв между семантическим пониманием и пространственными рассуждениями в современных VLM, подчеркивая необходимость более сильной геометрической обоснованности в будущих мультимодальных системах.

English

This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.

Семантическая насыщенность или геометрическое мышление? Хрупкость визуальной инвариантности VLM

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Аннотация

Support