Denken met verbeelding: agentisch visueel-ruimtelijk redeneren met wereldsimulatoren

Samenvatting

Hoewel visie-taalmodellen (Vision-Language Models, VLM's) sterke visuele redeneervaardigheden vertonen, blijft hun ruimtelijk redeneervermogen grotendeels beperkt tot waargenomen beelden en tekstgeoriënteerde ketens van gedachten. Ze hebben vaak moeite om niet-waargenomen lay-outs af te leiden, consistentie tussen aanzichten te handhaven, en te redeneren vanuit alternatieve gezichtspunten wanneer slechts beperkte egocentrische waarnemingen beschikbaar zijn. In dit werk bestuderen we dit probleem als denken met verbeelding, waarbij een VLM actief verbeeld visueel bewijs vergaart door tijdens het redeneren te interacteren met een wereldsimulator. We stellen Astra voor, een agentisch ruimtelijk redeneerraamwerk dat VLM's uitrust met actie-geconditioneerde visuele verbeelding. Specifiek koppelt Astra Astra-VL, een RL-getraind VLM-beleid, aan Astra-WM, een Bagel-gebaseerde wereldsimulator die nieuw-aanzicht waarnemingen genereert op basis van contextbeelden en natuurlijke-taal camerabewegingen. Om betrouwbaar verbeeld bewijs te leveren, wordt Astra-WM getraind met aanzichtsconsistentieafstemming om de pose- en inhoudsconsistentie tussen aanzichten te verbeteren. In de RL-fase stellen we een tweefasig RL-curriculum met de wereldsimulator in de lus voor om de verkenning van gereedschapsgebruik te stabiliseren en het vermogen van het model te bevorderen om de simulator alleen aan te roepen wanneer verbeeldde waarnemingen een verbetering vormen ten opzichte van direct antwoorden. Experimenten tonen aan dat zowel de wereldsimulator als het agentische beleid noodzakelijk zijn: Astra-WM verbetert simulator-verrijkte Gemini-3-Flash op MMSI-Bench van 45,1 naar 49,5, terwijl Astra-VL de Qwen3-VL backbone verbetert van 29,8 naar 38,8 op MMSI-Bench en van 36,8 naar 42,7 op MindCube. Deze resultaten laten zien dat verbeeldde waarnemingen nuttig ruimtelijk bewijs kunnen leveren, maar effectief wereldmodel-verrijkt redeneren vereist dat geleerd wordt wanneer, waar en hoe te verbeelden.

English

While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning abilities remain largely constrained to the observed images and text-oriented chain-of-thought. They often struggle to infer unobserved layouts, maintain cross-view consistency, and reason from alternative viewpoints when only limited egocentric observations are available. In this work, we study this problem as thinking with imagination, where a VLM actively acquires imagined visual evidence by interacting with a world simulator during reasoning. We propose Astra, an agentic spatial reasoning framework that empowers VLMs with action-conditioned visual imagination. Specifically, Astra couples Astra-VL, an RL-trained VLM policy, with Astra-WM, a Bagel-based world simulator that generates novel-view observations from context images and natural-language camera motions. To provide reliable imagined evidence, Astra-WM is trained with view consistency tuning to improve pose and content consistency across views. In the RL stage, we propose a world-simulator-in-the-loop two-phase RL curriculum to stabilize tool-use exploration and advance the model's ability to invoke the simulator only when imagined observations improve over direct answering. Experiments demonstrate that both the world simulator and the agentic policy are necessary: Astra-WM improves simulator-augmented Gemini-3-Flash on MMSI-Bench from 45.1 to 49.5, while Astra-VL improves the Qwen3-VL backbone from 29.8 to 38.8 on MMSI-Bench and from 36.8 to 42.7 on MindCube. These results show that imagined observations can provide useful spatial evidence, but effective world-model-augmented reasoning requires learning when, where, and how to imagine.