Pandora: Auf dem Weg zu einem allgemeinen Weltmodell mit natürlichsprachlichen Aktionen und Videostatus.
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
Autoren: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Zusammenfassung
Weltmodelle simulieren zukünftige Zustände der Welt als Reaktion auf verschiedene Aktionen. Sie erleichtern die interaktive Inhalteerstellung und bilden eine Grundlage für fundiertes, langfristiges Denken. Aktuelle Grundlagenmodelle erfüllen nicht vollständig die Fähigkeiten allgemeiner Weltmodelle: Große Sprachmodelle (LLMs) sind durch ihre Abhängigkeit von der Sprachmodalität und ihr begrenztes Verständnis der physischen Welt eingeschränkt, während Videomodelle keine interaktive Aktionskontrolle über die Weltsimulationen haben. Dieser Artikel macht einen Schritt in Richtung des Aufbaus eines allgemeinen Weltmodells, indem er Pandora einführt, ein hybrides autoregressives Diffusionsmodell, das Weltzustände simuliert, indem es Videos generiert und Echtzeitsteuerung mit Freitextaktionen ermöglicht. Pandora erreicht Domänengeneralität, Video-Konsistenz und Steuerbarkeit durch groß angelegtes Vortraining und Anpassung der Anweisungen. Entscheidend umgeht Pandora die Kosten des Trainings von Grund auf, indem es ein vorab trainiertes LLM (7B) und ein vorab trainiertes Videomodell integriert und nur zusätzliches leichtgewichtiges Feintuning erfordert. Wir veranschaulichen umfangreiche Ausgaben von Pandora in verschiedenen Bereichen (innen/außen, natürliche/städtische Umgebung, Mensch/Roboter, 2D/3D usw.). Die Ergebnisse deuten auf das große Potenzial hin, stärkere allgemeine Weltmodelle mit Training im größeren Maßstab aufzubauen.
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.Summary
AI-Generated Summary