Модели мира встречаются с языковыми моделями: О комплементарности конкретного и абстрактного мышления

Аннотация

Модели мира и мультимодальные большие языковые модели (MLLM) предоставляют взаимодополняющие возможности для прогнозирования будущих исходов на основе статических визуальных наблюдений. Модели мира способны генерировать конкретные визуальные развертки возможных будущих состояний, тогда как MLLM могут выполнять абстрактные рассуждения над вопросами, целями и правилами. Однако сгенерированные развертки являются стохастическими и могут быть визуально правдоподобными, но некорректными с точки зрения задачи, что требует определения, когда визуальная симуляция полезна, является ли развертка достоверной и как она должна влиять на окончательный ответ. Мы формулируем эту проблему как контролируемое конкретное рассуждение, в котором модель обучается вызывать, проверять и интегрировать визуальную симуляцию будущего наряду с абстрактным рассуждением. Для изучения этого сценария мы создаем два проверенных человеком эталона: VRQABench для контролируемого пространственного предвидения и OpenWorldQA для физического прогнозирования в открытой предметной области, и предлагаем метод привилегированного будущего с внутриполитической самодистилляцией (PF-OPSD). Во время обучения PF-OPSD использует видео будущего с истинными метками и ответы только в качестве привилегированного контекста со стороны учителя для оценки внутриполитических траекторий конкретных рассуждений, тогда как развертываемая модель-студент никогда не наблюдает истинное будущее во время тестирования. Экспериментальные результаты показывают, что PF-OPSD превосходит базовую линию на 10,6% и 10,9% на VRQABench и OpenWorldQA соответственно, повышая при этом устойчивость к зашумленным или конфликтующим разверткам. Наш код и набор данных доступны по адресу https://github.com/yczhou001/PF-OPSD.

English

World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.