Planung in 8 Token: Ein kompakter diskreter Tokenizer für latente Weltmodelle
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
March 5, 2026
Autoren: Dongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak
cs.AI
Zusammenfassung
Weltmodelle bieten einen leistungsstarken Rahmen, um Umgebungsdynamiken in Abhängigkeit von Aktionen oder Anweisungen zu simulieren und ermöglichen nachgelagerte Aufgaben wie Aktionsplanung oder Policy-Lernen. Jüngste Ansätze nutzen Weltmodelle als gelernte Simulatoren, doch ihre Anwendung für Planung zur Entscheidungszeit bleibt für Echtzeitsteuerung rechenintensiv. Ein zentraler Engpass liegt in latenten Repräsentationen: Konventionelle Tokenizer kodieren jede Beobachtung in Hunderte von Tokens, was die Planung sowohl langsam als auch ressourcenintensiv macht. Um dies zu adressieren, schlagen wir CompACT vor, einen diskreten Tokenizer, der jede Beobachtung auf nur 8 Tokens komprimiert und so die Rechenkosten drastisch reduziert, während essentielle Informationen für die Planung erhalten bleiben. Ein aktionsbedingtes Weltmodell, das den CompACT-Tokenizer nutzt, erreicht eine wettbewerbsfähige Planungsleistung mit um Größenordnungen schnellerer Planung und bietet damit einen praktischen Schritt zur realen Einsatzfähigkeit von Weltmodellen.
English
World models provide a powerful framework for simulating environment dynamics conditioned on actions or instructions, enabling downstream tasks such as action planning or policy learning. Recent approaches leverage world models as learned simulators, but its application to decision-time planning remains computationally prohibitive for real-time control. A key bottleneck lies in latent representations: conventional tokenizers encode each observation into hundreds of tokens, making planning both slow and resource-intensive. To address this, we propose CompACT, a discrete tokenizer that compresses each observation into as few as 8 tokens, drastically reducing computational cost while preserving essential information for planning. An action-conditioned world model that occupies CompACT tokenizer achieves competitive planning performance with orders-of-magnitude faster planning, offering a practical step toward real-world deployment of world models.