Richesse sémantique ou raisonnement géométrique ? La fragilité de l'invariance visuelle dans les modèles de langage visuel

Résumé

Ce travail examine la fragilité fondamentale des modèles vision-langage (VLM) de pointe face à des transformations géométriques élémentaires. Bien que les VLM modernes excellent dans des tâches sémantiques comme la reconnaissance d'objets en orientation canonique et la description de scènes complexes, ils présentent des défaillances systématiques à un niveau plus fondamental : l'absence d'invariance et d'équivariance spatiales robustes nécessaires pour déterminer de manière fiable l'identité des objets sous de simples rotations, changements d'échelle et transformations identitaires. Nous démontrons cette limitation par une évaluation systématique couvrant divers domaines visuels, incluant des croquis symboliques, des photographies naturelles et de l'art abstrait. Les performances chutent brutalement lorsque le contenu sémantique devient sparse, et ce comportement est observé quelle que soit l'architecture, la capacité des modèles ou les stratégies d'invocation. Globalement, nos résultats révèlent un écart systématique entre la compréhension sémantique et le raisonnement spatial dans les VLM actuels, soulignant la nécessité d'un ancrage géométrique plus solide pour les futurs systèmes multimodaux.

English

This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.

Richesse sémantique ou raisonnement géométrique ? La fragilité de l'invariance visuelle dans les modèles de langage visuel

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Résumé

Support