¿Riqueza Semántica o Razonamiento Geométrico? La Fragilidad de la Invarianza Visual en los Modelos de Lenguaje Visual

Resumen

Este trabajo investiga la fragilidad fundamental de los Modelos de Visión y Lenguaje (VLM) de última generación ante transformaciones geométricas básicas. Si bien los VLM modernos sobresalen en tareas semánticas como reconocer objetos en orientaciones canónicas y describir escenas complejas, presentan fallos sistemáticos a un nivel más fundamental: carecen de la invariancia y equivariancia espacial robusta necesaria para determinar de forma fiable la identidad de objetos bajo rotaciones simples, escalados y transformaciones de identidad. Demostramos esta limitación mediante una evaluación sistemática en diversos dominios visuales, incluyendo bocetos simbólicos, fotografías naturales y arte abstracto. El rendimiento disminuye drásticamente cuando el contenido semántico se vuelve escaso, y este comportamiento se observa en distintas arquitecturas, capacidades del modelo y estrategias de prompting. En conjunto, nuestros resultados revelan una brecha sistemática entre la comprensión semántica y el razonamiento espacial en los VLM actuales, destacando la necesidad de una base geométrica más sólida en los futuros sistemas multimodales.

English

This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.

¿Riqueza Semántica o Razonamiento Geométrico? La Fragilidad de la Invarianza Visual en los Modelos de Lenguaje Visual

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Resumen

Support