Modelos del Mundo se Encuentran con Modelos de Lenguaje: Sobre la Complementariedad del Razonamiento Concreto y Abstracto

Resumen

Los modelos del mundo y los modelos de lenguaje grandes multimodales (MLLMs) ofrecen capacidades complementarias para predecir resultados futuros a partir de observaciones visuales estáticas. Los modelos del mundo pueden generar simulaciones visuales concretas de futuros posibles, mientras que los MLLMs pueden razonar de manera abstracta sobre preguntas, metas y reglas. Sin embargo, las simulaciones generadas son estocásticas y pueden ser visualmente plausibles pero incorrectas para la tarea, lo que hace necesario determinar cuándo la simulación visual es útil, si una simulación es creíble y cómo debería influir en la respuesta final. Formulamos este problema como razonamiento concreto controlado, donde un modelo aprende a invocar, verificar e integrar la simulación visual futura junto con el razonamiento abstracto. Para estudiar este escenario, construimos dos puntos de referencia verificados por humanos, VRQABench para el análisis espacial controlable y OpenWorldQA para la predicción física de dominio abierto, y proponemos la Auto-destilación en Política con Futuro Privilegiado (PF-OPSD). Durante el entrenamiento, PF-OPSD utiliza únicamente videos futuros reales y respuestas como contexto privilegiado del lado del maestro para evaluar las trayectorias de razonamiento concreto en política, mientras que el estudiante desplegable nunca observa futuros reales en el momento de la prueba. Los resultados experimentales muestran que PF-OPSD supera a la línea base en un 10,6% y un 10,9% en VRQABench y OpenWorldQA, respectivamente, al tiempo que aumenta la robustez ante simulaciones ruidosas o conflictivas. Nuestro código y conjunto de datos están disponibles en https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.