ChatPaper.aiChatPaper

Discrete-WAM: Geünificeerde Discrete Visie-Actie Tokenbewerking voor Wereldbeleidsleren

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

June 4, 2026
Auteurs: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye
cs.AI

Samenvatting

Autonoom rijden vereist redeneren over hoe eigen acties de evolutie van de omringende wereld beïnvloeden. De meeste end-to-end methoden vertrouwen echter op directe toestand-naar-actie-koppelingen, waarbij correlaties worden vastgelegd zonder expliciet actie-geconditioneerde dynamiek te modelleren. Anderzijds missen continue-latente wereldmodellen vaak een compositionele structuur voor causaal redeneren over contrafeitelijke toekomsten. We introduceren Discrete-WAM, een universeel latent visie-actie wereldbeleid dat toekomstige visuele toestanden en eigen acties als uitgelijnde discrete tokens representeert, waardoor compositioneel causaal redeneren over alternatieve toekomsten mogelijk wordt. Gebaseerd op deze uniforme discrete uitlijning, stelt Discrete-WAM een gedeeld discreet diffusiekader vast met uniforme generatieve taken, die gezamenlijk wereldmodellering, wereld-actiebeleid en hiërarchisch beslissingsondersteunend beleid formuleren, en compositionele generalisatie over diverse rijscenario's ondersteunen. Experimenten op grootschalige benchmarks voor autonoom rijden tonen aan dat Discrete-WAM concurrerende prestaties levert, terwijl het beheersbare generatie en contrafeitelijk redeneren ondersteunt, en een principiële weg biedt naar betrouwbaardere besluitvorming.
English
Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.