Semantische Reichhaltigkeit oder geometrisches Denken? Die Anfälligkeit der visuellen Invarianz von VLMs
Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance
April 3, 2026
Autoren: Jason Qiu, Zachary Meurer, Xavier Thomas, Deepti Ghadiyaram
cs.AI
Zusammenfassung
Diese Arbeit untersucht die grundlegende Fragilität modernster Vision-Language-Modelle (VLMs) unter einfachen geometrischen Transformationen. Während moderne VLMs bei semantischen Aufgaben wie der Erkennung von Objekten in kanonischen Ausrichtungen und der Beschreibung komplexer Szenen hervorragende Leistungen erbringen, zeigen sie systematische Fehler auf einer fundamentaleren Ebene: Es fehlt ihnen an robuster räumlicher Invarianz und Äquivarianz, die erforderlich ist, um Objektidentitäten unter einfachen Rotationen, Skalierungen und Identitätstransformationen zuverlässig zu bestimmen. Wir demonstrieren diese Einschränkung durch eine systematische Evaluation über verschiedene visuelle Domänen hinweg, einschließlich symbolischer Skizzen, natürlicher Fotografien und abstrakter Kunst. Die Leistung bricht stark ein, sobald der semantische Gehalt spärlich wird, und dieses Verhalten wird über Architekturen, Modellkapazitäten und Prompting-Strategien hinweg beobachtet. Insgesamt zeigen unsere Ergebnisse eine systematische Lücke zwischen semantischem Verständnis und räumlichem Schlussfolgern in aktuellen VLMs auf und unterstreichen die Notwendigkeit einer stärkeren geometrischen Fundierung zukünftiger multimodaler Systeme.
English
This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.