Geometrisch Beperkte Agent voor Ruimtelijk Redeneren

Samenvatting

Vision Language Models (VLMs) vertonen een fundamentele semantisch-geometrische kloof bij ruimtelijk redeneren: ze blinken uit in kwalitatieve semantische inferentie, maar hun redeneerproces opereert binnen een lossy semantische ruimte die niet is afgestemd op hoogfideliteit geometrie. Huidige paradigma's slagen er niet in deze kloof te overbruggen. Trainingsgebaseerde methoden lijden onder een "orakelparadox", waarbij ze gebrekkige ruimtelijke logica aanleren van imperfecte orakels. Tool-geïntegreerde methoden beperken de uiteindelijke berekening, maar laten cruciaal genoeg het planningsproces van de VLM onbeperkt, wat resulteert in geometrisch gebrekkige plannen. In dit werk stellen we de Geometrically-Constrained Agent (GCA) voor, een trainingsvrije agent-paradigma dat deze kloof oplost door een formele taakbeperking in te voeren. Specifiek ontkoppelen we strategisch de rol van de VLM in twee fasen. Eerst fungeert de VLM als semantisch analist en vertaalt de dubbelzinnige vraag van de gebruiker naar de formele, verifieerbare taakbeperking, die het referentiekader en doel definieert. Vervolgens fungeert de VLM als taakoplosser en genereert en executeert hij tool-aanroepen strikt binnen de deterministische grenzen gedefinieerd door de beperking. Deze geometrisch-beperkte redeneerstrategie lost de semantisch-geometrische kloof succesvol op en levert een robuust en verifieerbaar redeneerpad op voor ruimtelijk redeneren. Uitgebreide experimenten tonen aan dat GCA state-of-the-art prestaties bereikt op meerdere benchmarks voor ruimtelijk redeneren, en bestaande trainingsgebaseerde en tool-geïntegreerde methoden met ~27% overtreft. Zie onze homepage op https://gca-spatial-reasoning.github.io.

English

Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.

Geometrisch Beperkte Agent voor Ruimtelijk Redeneren

Geometrically-Constrained Agent for Spatial Reasoning

Samenvatting

Support