Ricchezza Semantica o Ragionamento Geometrico? La Fragilità dell'Invarianza Visiva nei VLM

Abstract

Questo lavoro indaga la fragilità fondamentale dei modelli visione-linguaggio (VLM) all'avanguardia quando sottoposti a trasformazioni geometriche di base. Sebbene i VLM moderni eccellano in compiti semantici come il riconoscimento di oggetti in orientamenti canonici e la descrizione di scene complesse, mostrano fallimenti sistematici a un livello più fondamentale: la mancanza di una robusta invarianza ed equivarianza spaziale necessaria per determinare in modo affidabile l'identità degli oggetti sotto semplici rotazioni, ridimensionamenti e trasformazioni identitarie. Dimostriamo questa limitazione attraverso una valutazione sistematica in diversi domini visivi, inclusi schizzi simbolici, fotografie naturali e arte astratta. Le prestazioni calano bruscamente quando il contenuto semantico diventa scarso, e questo comportamento è osservato in tutte le architetture, capacità dei modelli e strategie di prompting. Nel complesso, i nostri risultati rivelano un divario sistematico tra la comprensione semantica e il ragionamento spaziale negli attuali VLM, evidenziando la necessità di un ancoraggio geometrico più solido per i futuri sistemi multimodali.

English

This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.

Ricchezza Semantica o Ragionamento Geometrico? La Fragilità dell'Invarianza Visiva nei VLM

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Abstract

Support