ChatPaper.aiChatPaper

Agente com Restrições Geométricas para Raciocínio Espacial

Geometrically-Constrained Agent for Spatial Reasoning

November 27, 2025
Autores: Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
cs.AI

Resumo

Os Modelos de Linguagem Visual (VLMs) exibem uma lacuna fundamental semântico-geométrica no raciocínio espacial: eles se destacam na inferência semântica qualitativa, mas seu raciocínio opera dentro de um espaço semântico com perdas, desalinhado com a geometria de alta fidelidade. Os paradigmas atuais não conseguem preencher essa lacuna. Os métodos baseados em treinamento sofrem de um "paradoxo do oráculo", aprendendo lógica espacial falha a partir de oráculos imperfeitos. Os métodos com integração de ferramentas restringem o cálculo final, mas deixam criticamente o processo de planeamento do VLM sem restrições, resultando em planos geometricamente falhos. Neste trabalho, propomos o Agente Geometricamente Restringido (GCA), um paradigma agentivo livre de treinamento que resolve essa lacuna através da introdução de uma restrição formal de tarefa. Especificamente, separamos estrategicamente o papel do VLM em dois estágios. Primeiro, atuando como um analista semântico, o VLM traduz a consulta ambígua do usuário para a restrição formal e verificável da tarefa, que define o quadro de referência e o objetivo. Segundo, atuando como um resolvedor de tarefas, o VLM gera e executa chamadas de ferramentas estritamente dentro dos limites determinísticos definidos pela restrição. Esta estratégia de raciocínio geometricamente restringido resolve com sucesso a lacuna semântico-geométrica, produzindo um caminho de raciocínio robusto e verificável para o raciocínio espacial. Experimentos abrangentes demonstram que o GCA atinge desempenho de estado da arte em múltiplos benchmarks de raciocínio espacial, superando os métodos existentes baseados em treinamento e com integração de ferramentas em ~27%. Consulte nossa página inicial em https://gca-spatial-reasoning.github.io.
English
Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.
PDF412March 7, 2026