Агент с геометрическими ограничениями для пространственного мышления
Geometrically-Constrained Agent for Spatial Reasoning
November 27, 2025
Авторы: Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
cs.AI
Аннотация
Модели «визуальный язык» (VLMs) демонстрируют фундаментальный семантико-геометрический разрыв в пространственном мышлении: они преуспевают в качественном семантическом выводе, но их рассуждения работают в пространстве с потерей семантической информации, не согласованном с высокоточной геометрией. Существующие парадигмы не способны устранить этот разрыв. Обучаемые методы страдают от «парадокса оракула», усваивая ошибочную пространственную логику от несовершенных источников. Методы с интеграцией инструментов ограничивают финальные вычисления, но критически оставляют процесс планирования VLM без ограничений, что приводит к геометрически несостоятельным планам. В данной работе мы предлагаем Геометрически-Ограниченного Агента (GCA), беcобучаемую агентскую парадигму, которая разрешает этот разрыв за счет введения формального ограничения задачи. А именно, мы стратегически разделяем роль VLM на два этапа. Сначала, выступая в роли семантического аналитика, VLM преобразует неоднозначный запрос пользователя в формальное, проверяемое ограничение задачи, которое определяет систему отсчета и цель. Затем, действуя как решатель задач, VLM генерирует и выполняет вызовы инструментов строго в рамках детерминированных границ, заданных ограничением. Эта стратегия геометрически-ограниченного рассуждения успешно разрешает семантико-геометрический разрыв, обеспечивая надежный и проверяемый путь рассуждений для пространственного мышления. Комплексные эксперименты демонстрируют, что GCA достигает наилучших результатов (SOTA) на нескольких бенчмарках пространственного мышления, превосходя существующие обучаемые и инструментальные методы примерно на 27%. Дополнительная информация доступна на нашей домашней странице: https://gca-spatial-reasoning.github.io.
English
Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.