幾何学的制約付きエージェントによる空間推論
Geometrically-Constrained Agent for Spatial Reasoning
November 27, 2025
著者: Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
cs.AI
要旨
視覚言語モデル(VLM)は空間推論において、基本的な意味論-幾何学ギャップを示す:定性的な意味論的推論には優れるが、その推論は高精度な幾何学と整合しない非可逆的な意味空間内で行われる。現在のパラダイムはこのギャップを埋められていない。学習ベースの手法は「オラクルパラドックス」に悩まされ、不完全なオラクルから欠陥のある空間論理を学習する。ツール統合型手法は最終計算を制約するが、決定的にVLMの計画プロセスを制約せず、幾何学的に欠陥のある計画を生み出す。本研究では、形式的タスク制約を導入してこのギャップを解決する学習不要なエージェントパラダイム「幾何学的制約付きエージェント(GCA)」を提案する。具体的には、VLMの役割を2段階に戦略的に分離する。第一段階では意味解析者として、VLMはユーザーの曖昧なクエリを検証可能な形式的タスク制約(参照枠と目的を定義)に変換する。第二段階では課題解決者として、VLMは制約で定義された決定論的範囲内でツール呼び出しを厳密に生成・実行する。この幾何学的制約付き推論戦略は意味論-幾何学ギャップを解決し、空間推論のための堅牢かつ検証可能な推論経路を実現する。大規模実験により、GCAが複数の空間推論ベンチマークでSOTA性能を達成し、既存の学習ベースおよびツール統合型手法を約27%上回ることを実証した。詳細はホームページ(https://gca-spatial-reasoning.github.io)を参照されたい。
English
Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.