Discrete-WAM : Édition unifiée de jetons vision-action discrets pour l'apprentissage de politiques mondiales

Résumé

La conduite autonome nécessite un raisonnement sur la manière dont les actions de l'ego façonnent l'évolution du monde environnant. Cependant, la plupart des méthodes de bout en bout reposent sur des correspondances directes état-action, capturant des corrélations sans modéliser explicitement la dynamique conditionnée par les actions. Inversement, les modèles du monde à latents continus manquent souvent de structure compositionnelle pour un raisonnement causal à travers des futurs contrefactuels. Nous présentons Discrete-WAM, une politique mondiale unifiée vision-action latente qui représente les états visuels futurs et les actions de l'ego comme des jetons discrets alignés, permettant un raisonnement causal compositionnel à travers des futurs alternatifs. Construit sur cet alignement discret unifié, Discrete-WAM établit un cadre de diffusion discrète partagé avec des tâches génératives unifiées, formulant conjointement la modélisation du monde, la politique monde-action et la politique hiérarchique activée par décision, soutenant la généralisation compositionnelle à travers divers scénarios de conduite. Les expériences sur des bancs d'essai de conduite autonome à grande échelle montrent que Discrete-WAM atteint des performances compétitives tout en soutenant la génération contrôlable et le raisonnement contrefactuel, offrant une voie structurée vers une prise de décision plus fiable.

English

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.