Semantische Rijkdom of Geometrisch Redeneren? De Kwetsbaarheid van Visuele Invarantie bij VLM's
Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance
April 3, 2026
Auteurs: Jason Qiu, Zachary Meurer, Xavier Thomas, Deepti Ghadiyaram
cs.AI
Samenvatting
Dit onderzoek belicht de fundamentele kwetsbaarheid van state-of-the-art Vision-Language Models (VLMs) onder eenvoudige geometrische transformaties. Hoewel moderne VLMs uitblinken in semantische taken, zoals het herkennen van objecten in canonieke oriëntaties en het beschrijven van complexe scènes, vertonen ze systematische tekortkomingen op een meer fundamenteel niveau: het ontbreekt hen aan robuuste ruimtelijke invariantie en equivariantie die nodig zijn om objectidentiteit betrouwbaar te bepalen onder simpele rotaties, schalingen en identiteitstransformaties. We demonstreren deze beperking door middel van een systematische evaluatie in diverse visuele domeinen, waaronder symbolische schetsen, natuurlijke foto's en abstracte kunst. De prestaties nemen sterk af naarmate de semantische inhoud schaarser wordt, en dit gedrag wordt waargenomen bij verschillende architecturen, modelcapaciteiten en promptingstrategieën. Over het geheel genomen onthullen onze resultaten een systematische kloof tussen semantisch begrip en ruimtelijk redeneren in huidige VLMs, wat de noodzaak benadrukt van een sterkere geometrische fundering in toekomstige multimodale systemen.
English
This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.