Pianificazione in 8 Token: Un Tokenizzatore Discreto Compatto per Modelli del Mondo Latenti
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
March 5, 2026
Autori: Dongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak
cs.AI
Abstract
I modelli del mondo forniscono un potente framework per simulare le dinamiche ambientali condizionate da azioni o istruzioni, abilitando task a valle come la pianificazione delle azioni o l'apprendimento di politiche. Gli approcci recenti sfruttano i modelli del mondo come simulatori appresi, ma la loro applicazione alla pianificazione al momento della decisione rimane computazionalmente proibitiva per il controllo in tempo reale. Un collo di bottiglia chiave risiede nelle rappresentazioni latenti: i tokenizer convenzionali codificano ogni osservazione in centinaia di token, rendendo la pianificazione sia lenta che ad alta intensità di risorse. Per affrontare questo problema, proponiamo CompACT, un tokenizer discreto che comprime ogni osservazione in appena 8 token, riducendo drasticamente il costo computazionale preservando al contempo le informazioni essenziali per la pianificazione. Un modello del mondo condizionato all'azione che utilizza il tokenizer CompACT raggiunge prestazioni competitive nella pianificazione con una velocità di pianificazione superiore di ordini di grandezza, offrendo un passo pratico verso l'implementazione nel mondo reale dei modelli del mondo.
English
World models provide a powerful framework for simulating environment dynamics conditioned on actions or instructions, enabling downstream tasks such as action planning or policy learning. Recent approaches leverage world models as learned simulators, but its application to decision-time planning remains computationally prohibitive for real-time control. A key bottleneck lies in latent representations: conventional tokenizers encode each observation into hundreds of tokens, making planning both slow and resource-intensive. To address this, we propose CompACT, a discrete tokenizer that compresses each observation into as few as 8 tokens, drastically reducing computational cost while preserving essential information for planning. An action-conditioned world model that occupies CompACT tokenizer achieves competitive planning performance with orders-of-magnitude faster planning, offering a practical step toward real-world deployment of world models.