Riqueza Semântica ou Raciocínio Geométrico? A Fragilidade da Invariação Visual nos VLMs

Resumo

Este trabalho investiga a fragilidade fundamental dos modelos estado da arte de visão e linguagem (VLMs) sob transformações geométricas básicas. Embora os VLMs modernos se destaquem em tarefas semânticas, como reconhecer objetos em orientações canônicas e descrever cenas complexas, eles exibem falhas sistemáticas em um nível mais fundamental: a falta de invariância e equivariância espacial robustas necessárias para determinar com confiabilidade a identidade de um objeto sob rotações, escalonamentos e transformações de identidade simples. Demonstramos essa limitação por meio de uma avaliação sistemática em diversos domínios visuais, incluindo desenhos simbólicos, fotografias naturais e arte abstrata. O desempenho cai drasticamente à medida que o conteúdo semântico se torna esparso, e esse comportamento é observado em diferentes arquiteturas, capacidades de modelo e estratégias de *prompting*. No geral, nossos resultados revelam uma lacuna sistemática entre a compreensão semântica e o raciocínio espacial nos VLMs atuais, destacando a necessidade de uma base geométrica mais sólida nos futuros sistemas multimodais.

English

This work investigates the fundamental fragility of state-of-the-art Vision-Language Models (VLMs) under basic geometric transformations. While modern VLMs excel at semantic tasks such as recognizing objects in canonical orientations and describing complex scenes, they exhibit systematic failures at a more fundamental level: lack of robust spatial invariance and equivariance required to reliably determine object identity under simple rotations, scaling, and identity transformations. We demonstrate this limitation through a systematic evaluation across diverse visual domains, including symbolic sketches, natural photographs, and abstract art. Performance drops sharply as semantic content becomes sparse, and this behavior is observed across architectures, model capacities, and prompting strategies. Overall, our results reveal a systematic gap between semantic understanding and spatial reasoning in current VLMs, highlighting the need for stronger geometric grounding in future multimodal systems.

Riqueza Semântica ou Raciocínio Geométrico? A Fragilidade da Invariação Visual nos VLMs

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Resumo

Support