Agente com Restrições Geométricas para Raciocínio Espacial

Resumo

Os Modelos de Linguagem Visual (VLMs) exibem uma lacuna fundamental semântico-geométrica no raciocínio espacial: eles se destacam na inferência semântica qualitativa, mas seu raciocínio opera dentro de um espaço semântico com perdas, desalinhado com a geometria de alta fidelidade. Os paradigmas atuais não conseguem preencher essa lacuna. Os métodos baseados em treinamento sofrem de um "paradoxo do oráculo", aprendendo lógica espacial falha a partir de oráculos imperfeitos. Os métodos com integração de ferramentas restringem o cálculo final, mas deixam criticamente o processo de planeamento do VLM sem restrições, resultando em planos geometricamente falhos. Neste trabalho, propomos o Agente Geometricamente Restringido (GCA), um paradigma agentivo livre de treinamento que resolve essa lacuna através da introdução de uma restrição formal de tarefa. Especificamente, separamos estrategicamente o papel do VLM em dois estágios. Primeiro, atuando como um analista semântico, o VLM traduz a consulta ambígua do usuário para a restrição formal e verificável da tarefa, que define o quadro de referência e o objetivo. Segundo, atuando como um resolvedor de tarefas, o VLM gera e executa chamadas de ferramentas estritamente dentro dos limites determinísticos definidos pela restrição. Esta estratégia de raciocínio geometricamente restringido resolve com sucesso a lacuna semântico-geométrica, produzindo um caminho de raciocínio robusto e verificável para o raciocínio espacial. Experimentos abrangentes demonstram que o GCA atinge desempenho de estado da arte em múltiplos benchmarks de raciocínio espacial, superando os métodos existentes baseados em treinamento e com integração de ferramentas em ~27%. Consulte nossa página inicial em https://gca-spatial-reasoning.github.io.

English

Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.