Weltmodelle treffen auf Sprachmodelle: Über die Komplementarität von konkretem und abstraktem Denken

Zusammenfassung

Weltmodelle und multimodale große Sprachmodelle (MLLMs) bieten komplementäre Fähigkeiten zur Vorhersage zukünftiger Ergebnisse aus statischen visuellen Beobachtungen. Weltmodelle können konkrete visuelle Rollouts möglicher Zukünfte erzeugen, während MLLMs abstrakt über Fragen, Ziele und Regeln nachdenken können. Allerdings sind die erzeugten Rollouts stochastisch und können visuell plausibel, aber aufgabeninkorrekt sein, was es notwendig macht zu bestimmen, wann eine visuelle Simulation nützlich ist, ob ein Rollout glaubwürdig ist und wie er die endgültige Antwort beeinflussen sollte. Wir formulieren dieses Problem als kontrolliertes konkretes Denken, bei dem ein Modell lernt, visuelle Zukunftssimulationen aufzurufen, zu verifizieren und zusammen mit abstraktem Denken zu integrieren. Um dieses Szenario zu untersuchen, erstellen wir zwei von Menschen verifizierte Benchmarks, VRQABench für kontrollierbaren räumlichen Vorausblick und OpenWorldQA für offene physische Vorhersage, und schlagen die Privilegierte-Zukunfts-On-Policy-Selbst-Destillation (PF-OPSD) vor. Während des Trainings verwendet PF-OPSD Ground-Truth-Zukunftsvideos und -antworten ausschließlich als lehrerseitigen privilegierten Kontext, um On-Policy-Trajektorien des konkreten Denkens zu bewerten, während der einsetzbare Schüler zur Testzeit nie wahre Zukünfte beobachtet. Experimentelle Ergebnisse zeigen, dass PF-OPSD die Baseline auf VRQABench und OpenWorldQA um 10,6 % bzw. 10,9 % übertrifft und gleichzeitig die Robustheit gegenüber verrauschten oder widersprüchlichen Rollouts erhöht. Unser Code und Datensatz sind verfügbar unter https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.