Agente con Restricciones Geométricas para el Razonamiento Espacial

Resumen

Los Modelos de Lenguaje Visual (VLMs) exhiben una brecha fundamental semántica-a-geométrica en el razonamiento espacial: sobresalen en la inferencia semántica cualitativa, pero su razonamiento opera dentro de un espacio semántico con pérdida, desalineado con la geometría de alta fidelidad. Los paradigmas actuales no logran cerrar esta brecha. Los métodos basados en entrenamiento sufren de una "paradoja del oráculo", aprendiendo una lógica espacial defectuosa de oráculos imperfectos. Los métodos con herramientas integradas constriñen el cálculo final, pero dejan críticamente sin restricciones el proceso de planificación del VLM, resultando en planes geométricamente flawed. En este trabajo, proponemos el Agente Geométricamente Restringido (GCA), un paradigma agentivo libre de entrenamiento que resuelve esta brecha introduciendo una restricción formal de tarea. Específicamente, separamos estratégicamente el rol del VLM en dos etapas. Primero, actuando como un analista semántico, el VLM traduce la consulta ambigua del usuario a la restricción de tarea formal y verificable, que define el marco de referencia y el objetivo. Segundo, actuando como un resolvedor de tareas, el VLM genera y ejecuta llamadas a herramientas estrictamente dentro de los límites deterministas definidos por la restricción. Esta estrategia de razonamiento geométricamente restringido resuelve exitosamente la brecha semántica-a-geométrica, produciendo una vía de razonamiento robusta y verificable para el razonamiento espacial. Experimentos exhaustivos demuestran que GCA alcanza un rendimiento de vanguardia (SOTA) en múltiples benchmarks de razonamiento espacial, superando a los métodos existentes basados en entrenamiento y con herramientas integradas en aproximadamente un 27%. Por favor, visite nuestra página web en https://gca-spatial-reasoning.github.io.

English

Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.