Les modèles du monde rencontrent les modèles de langage : sur la complémentarité du raisonnement concret et abstrait

Résumé

Les modèles du monde et les grands modèles de langage multimodaux (MLLM) offrent des capacités complémentaires pour prédire les résultats futurs à partir d'observations visuelles statiques. Les modèles du monde peuvent générer des déploiements visuels concrets de futurs possibles, tandis que les MLLM peuvent raisonner de manière abstraite sur des questions, des objectifs et des règles. Cependant, les déploiements générés sont stochastiques et peuvent être visuellement plausibles mais incorrects par rapport à la tâche, ce qui nécessite de déterminer quand la simulation visuelle est utile, si un déploiement est crédible et comment il doit influencer la réponse finale. Nous formulons ce problème comme un raisonnement concret contrôlé, où un modèle apprend à invoquer, vérifier et intégrer la simulation visuelle future en parallèle du raisonnement abstrait. Pour étudier ce cadre, nous construisons deux bancs d'essai vérifiés par des humains, VRQABench pour l'anticipation spatiale contrôlable et OpenWorldQA pour la prédiction physique en domaine ouvert, et proposons l'auto-distillation sur politique avec futur privilégié (PF-OPSD). Pendant l'entraînement, PF-OPSD utilise les vidéos futures et les réponses de vérité terrain uniquement comme contexte privilégié du côté enseignant pour évaluer les trajectoires de raisonnement concret sur politique, tandis que l'étudiant déployable n'observe jamais les vrais futurs au moment du test. Les résultats expérimentaux montrent que PF-OPSD surpasse la référence de 10,6 % et 10,9 % sur VRQABench et OpenWorldQA respectivement, tout en augmentant la robustesse face aux déploiements bruyants ou contradictoires. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.