Wereldmodellen ontmoeten taalmodellen: over de complementariteit van concreet en abstract redeneren

Samenvatting

Wereldmodellen en multimodale grote taalmodellen (MLLM's) bieden complementaire mogelijkheden voor het voorspellen van toekomstige uitkomsten op basis van statische visuele waarnemingen. Wereldmodellen kunnen concrete visuele rollouts van mogelijke toekomsten genereren, terwijl MLLM's abstract kunnen redeneren over vragen, doelen en regels. Gegenereerde rollouts zijn echter stochastisch en kunnen visueel plausibel zijn maar taakincorrect, waardoor het noodzakelijk is om te bepalen wanneer visuele simulatie nuttig is, of een rollout geloofwaardig is en hoe deze de uiteindelijke uitkomst moet beïnvloeden. We formuleren dit probleem als gecontroleerd concreet redeneren, waarbij een model leert om visuele toekomstsimulatie op te roepen, te verifiëren en te integreren naast abstract redeneren. Om deze setting te bestuderen, construeren we twee door mensen geverifieerde benchmarks, VRQABench voor controleerbare ruimtelijke vooruitblik en OpenWorldQA voor open-domein fysieke voorspelling, en stellen we Privileged-Future On-Policy Self-Distillation (PF-OPSD) voor. Tijdens training gebruikt PF-OPSD alleen grondwaarheid-toekomstvideo's en antwoorden als bevoorrechte context aan de docentzijde om op-beleid concrete-redeneringstrajecten te evalueren, terwijl de inzetbare student nooit echte toekomsten observeert tijdens testtijd. Experimentele resultaten tonen aan dat PF-OPSD de basislijn met respectievelijk 10,6% en 10,9% overtreft op VRQABench en OpenWorldQA, terwijl de robuustheid tegen ruizige of conflicterende rollouts toeneemt. Onze code en dataset zijn beschikbaar op https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.