Geometrisch eingeschränkter Agent für räumliches Schließen

Zusammenfassung

Visuelle Sprachmodelle (VLMs) weisen eine fundamentale semantisch-geometrische Lücke in der räumlichen Reasoningfähigkeit auf: Sie übertreffen bei qualitativen semantischen Inferenzen, operieren jedoch in einem verlustbehafteten semantischen Raum, der nicht mit hochpräziser Geometrie übereinstimmt. Bisherige Paradigmen können diese Lücke nicht überbrücken. Trainingsbasierte Methoden leiden unter einem „Orakel-Paradoxon“, da sie fehlerhafte räumliche Logik von unvollkommenen Orakeln erlernen. Tool-integrierte Methoden beschränken zwar die finale Berechnung, lassen jedoch kritischerweise den Planungsprozess des VLMs unkontrolliert, was zu geometrisch fehlerhaften Plänen führt. In dieser Arbeit schlagen wir den Geometrically-Constrained Agent (GCA) vor, ein trainierungsfreies agentenbasiertes Paradigma, das diese Lücke durch die Einführung einer formalen Aufgabenbeschränkung schließt. Konkret entkoppeln wir strategisch die Rolle des VLMs in zwei Stufen. Zunächst übersetzt der VLM als semantischer Analytiker die mehrdeutige Nutzeranfrage in eine formale, verifizierbare Aufgabenbeschränkung, die den Referenzrahmen und das Ziel definiert. Anschließend generiert und führt der VLM als Aufgabenlöser Tool-Aufrufe streng innerhalb der durch die Beschränkung definierten deterministischen Grenzen aus. Diese geometrisch beschränkte Reasoning-Strategie schließt erfolgreich die semantisch-geometrische Lücke und erzeugt einen robusten und verifizierbaren Reasoning-Pfad für räumliches Schließen. Umfassende Experimente zeigen, dass GCA state-of-the-art Leistung in mehreren räumlichen Reasoning-Benchmarks erreicht und bestehende trainingsbasierte sowie tool-integrierte Methoden um ~27% übertrifft. Weitere Informationen finden Sie auf unserer Homepage: https://gca-spatial-reasoning.github.io.

English

Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.