Agente a Vincoli Geometrici per il Ragionamento Spaziale

Abstract

I Modelli Linguaggio-Visione (VLMs) mostrano un divario semantico-geometrico fondamentale nel ragionamento spaziale: eccellono nell'inferenza semantica qualitativa, ma il loro ragionamento opera in uno spazio semantico con perdita di informazioni, disallineato rispetto a geometrie ad alta fedeltà. Gli attuali paradigmi non riescono a colmare questo divario. I metodi basati sull'addestramento soffrono di un "paradosso dell'oracolo", apprendendo una logica spaziale imperfetta da oracoli imperfetti. I metodi con integrazione di strumenti vincolano il calcolo finale ma, in modo critico, lasciano il processo di pianificazione del VLM non vincolato, generando piani geometricamente errati. In questo lavoro, proponiamo Geometrically-Constrained Agent (GCA), un paradigma agentivo senza addestramento che risolve questo divario introducendo un vincolo formale di task. Nello specifico, separiamo strategicamente il ruolo del VLM in due fasi. Primo, agendo come analista semantico, il VLM traduce la query ambigua dell'utente in un vincolo di task formale e verificabile, che definisce il sistema di riferimento e l'obiettivo. Secondo, agendo come risolutore del task, il VLM genera ed esegue chiamate a strumenti rigorosamente entro i limiti deterministici definiti dal vincolo. Questa strategia di ragionamento geometricamente vincolato risolve con successo il divario semantico-geometrico, producendo un percorso di ragionamento robusto e verificabile per il ragionamento spaziale. Esperimenti completi dimostrano che GCA raggiunge prestazioni state-of-the-art su molteplici benchmark di ragionamento spaziale, superando i metodi esistenti basati su addestramento e integrazione di strumenti di circa il 27%. Si prega di consultare la nostra homepage all'indirizzo https://gca-spatial-reasoning.github.io.

English

Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.

Agente a Vincoli Geometrici per il Ragionamento Spaziale

Geometrically-Constrained Agent for Spatial Reasoning

Abstract

Support