Discrete-WAM: Geünificeerde Discrete Visie-Actie Tokenbewerking voor Wereldbeleidsleren

Samenvatting

Autonoom rijden vereist redeneren over hoe eigen acties de evolutie van de omringende wereld beïnvloeden. De meeste end-to-end methoden vertrouwen echter op directe toestand-naar-actie-koppelingen, waarbij correlaties worden vastgelegd zonder expliciet actie-geconditioneerde dynamiek te modelleren. Anderzijds missen continue-latente wereldmodellen vaak een compositionele structuur voor causaal redeneren over contrafeitelijke toekomsten. We introduceren Discrete-WAM, een universeel latent visie-actie wereldbeleid dat toekomstige visuele toestanden en eigen acties als uitgelijnde discrete tokens representeert, waardoor compositioneel causaal redeneren over alternatieve toekomsten mogelijk wordt. Gebaseerd op deze uniforme discrete uitlijning, stelt Discrete-WAM een gedeeld discreet diffusiekader vast met uniforme generatieve taken, die gezamenlijk wereldmodellering, wereld-actiebeleid en hiërarchisch beslissingsondersteunend beleid formuleren, en compositionele generalisatie over diverse rijscenario's ondersteunen. Experimenten op grootschalige benchmarks voor autonoom rijden tonen aan dat Discrete-WAM concurrerende prestaties levert, terwijl het beheersbare generatie en contrafeitelijk redeneren ondersteunt, en een principiële weg biedt naar betrouwbaardere besluitvorming.

English

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.