Галлюцинация в моделях мира предсказуема и предотвратима

Аннотация

Современные генеративные мировые модели создают всё более реалистичные управляемые действиями будущие сценарии, однако они часто галлюцинируют: развертывания остаются визуально плавными, но отклоняются от истинной динамики. Мы предполагаем, что галлюцинации концентрируются в областях пространства состояний-действий с низким покрытием, где легковесные сигналы, ориентированные на данные, могут как обнаруживать их, так и направлять смягчение. Для проверки этой гипотезы мы представляем MMBench2 — набор данных объёмом 427 часов и 210 задач для визуального моделирования мира с истинными действиями, наградами и живыми симуляторами, и обучаем на нём мировую модель с 350 миллионами параметров. Мы выявляем три различных режима галлюцинаций: перцептивный, маргинализированный по действию и расходящийся по сцене — каждый из которых привязан к разному этапу конвейера, и разрабатываем три сигнала, которые точно предсказывают, где модель потерпит неудачу. Для устранения пробелов в покрытии на этапе обучения мы разрабатываем технику выборки с учётом покрытия; для их устранения в реальном времени наши предикторы галлюцинаций служат наградами за любопытство для целенаправленного сбора данных, что даёт метод тонкой настройки с эффективным использованием данных, адаптирующий предобученную мировую модель к совершенно невиданным средам всего за 50 траекторий реальной среды. В целом, наши результаты показывают, что галлюцинации в мировых моделях по своей сути являются проблемой покрытия данных, и что те же сигналы, используемые для их обнаружения, могут также применяться для их смягчения. Интерактивная веб-версия нашей статьи доступна по адресу https://www.nicklashansen.com/mmbench2

English

Modern generative world models render increasingly realistic action-controllable futures, yet they frequently hallucinate: rollouts remain visually fluent while drifting from the ground-truth dynamics. We hypothesize that hallucination concentrates in low-coverage regions of the state-action space, where lightweight data-centric signals can both detect it and guide mitigation. To test this, we introduce MMBench2, a 427-hour, 210-task dataset for visual world modeling with ground-truth actions, rewards, and live simulators, and train a 350M-parameter world model on it. We identify three distinct hallucination modes: perceptual, action-marginalized, and scene-diverging -- each anchored to a different stage of the pipeline, and develop three signals that accurately predict where the model will fail. To close coverage gaps at training time, we develop a coverage-aware sampling technique; to close them online, our hallucination predictors serve as curiosity rewards for targeted data collection, yielding a data-efficient finetuning recipe that adapts the pretrained world model to entirely unseen environments with as few as 50 real environment trajectories. Overall, our findings reveal that hallucination in world models is inherently a data coverage issue, and that the same signals used to detect it can also be used for mitigation. An interactive web version of our paper is available at https://www.nicklashansen.com/mmbench2