Пандора: к общей модели мира с естественноязыковыми действиями и видео состояниями
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
Авторы: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Аннотация
Мировые модели моделируют будущие состояния мира в ответ на различные действия. Они облегчают создание интерактивного контента и обеспечивают основу для обоснованного долгосрочного рассуждения. Существующие базовые модели не полностью соответствуют возможностям общих мировых моделей: большие языковые модели (LLM) ограничены своей зависимостью от языковой модальности и их ограниченным пониманием физического мира, в то время как видеомодели лишены интерактивного управления действиями в симуляциях мира. В данной статье предпринимается шаг к созданию общей мировой модели путем представления Pandora, гибридной авторегрессионной-диффузионной модели, которая моделирует состояния мира путем генерации видео и позволяет управлять в реальном времени с помощью свободного текстового действия. Pandora достигает областной обобщаемости, согласованности видео и управляемости через предварительное масштабирование и настройку инструкций. Критически важно, что Pandora обходит затраты на обучение с нуля, интегрируя предварительно обученную LLM (7B) и предварительно обученную видеомодель, требуя только дополнительной легкой донастройки. Мы иллюстрируем обширные результаты работы Pandora в различных областях (в помещении/на открытом воздухе, природных/городских, человеческих/робототехнических, 2D/3D и т. д.). Результаты указывают на большой потенциал построения более сильных общих мировых моделей с обучением большего масштаба.
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.