Modelos de Mundo Encontram Modelos de Linguagem: Sobre a Complementaridade do Raciocínio Concreto e Abstrato

Resumo

Modelos mundiais e modelos de linguagem grandes multimodais (MLLMs) fornecem capacidades complementares para prever resultados futuros a partir de observações visuais estáticas. Modelos mundiais podem gerar simulações visuais concretas de futuros possíveis, enquanto os MLLMs podem raciocinar abstratamente sobre perguntas, objetivos e regras. No entanto, as simulações geradas são estocásticas e podem ser visualmente plausíveis, mas incorretas para a tarefa, tornando necessário determinar quando a simulação visual é útil, se uma simulação é crível e como ela deve influenciar a resposta final. Formulamos este problema como raciocínio concreto controlado, onde um modelo aprende a invocar, verificar e integrar a simulação visual futura juntamente com o raciocínio abstrato. Para estudar este cenário, construímos dois benchmarks verificados por humanos, o VRQABench para previsão espacial controlável e o OpenWorldQA para previsão física de domínio aberto, e propomos a Auto-Destilação On-Policy com Futuro Privilegiado (PF-OPSD). Durante o treinamento, o PF-OPSD usa vídeos futuros de verdade fundamental e respostas apenas como contexto privilegiado do lado do professor para avaliar trajetórias de raciocínio concreto on-policy, enquanto o aluno implantável nunca observa futuros verdadeiros no momento do teste. Os resultados experimentais mostram que o PF-OPSD supera a linha de base em 10,6% e 10,9% no VRQABench e no OpenWorldQA, respectivamente, ao mesmo tempo que aumenta a robustez a simulações ruidosas ou conflitantes. Nosso código e conjunto de dados estão disponíveis em https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.