Discrete-WAM: Edição Unificada de Tokens Discretos de Visão-Ação para Aprendizado de Política-Mundo
Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
June 4, 2026
Autores: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye
cs.AI
Resumo
A condução autônoma exige raciocínio sobre como as ações do ego moldam a evolução do mundo circundante. No entanto, a maioria dos métodos ponta a ponta depende de mapeamentos diretos de estado para ação, capturando correlações sem modelar explicitamente as dinâmicas condicionadas à ação. Por outro lado, modelos de mundo com latentes contínuos frequentemente carecem de estrutura composicional para raciocínio causal em futuros contrafactuais. Apresentamos o Discrete-WAM, uma política de mundo unificada visão-ação latente que representa estados visuais futuros e ações do ego como tokens discretos alinhados, permitindo raciocínio causal composicional em futuros alternativos. Construído sobre esse alinhamento discreto unificado, o Discrete-WAM estabelece uma estrutura de difusão discreta compartilhada com tarefas generativas unificadas, formulando conjuntamente modelagem do mundo, política mundo-ação e política habilitada por decisão hierárquica, apoiando a generalização composicional em diversos cenários de direção. Experimentos em benchmarks de condução autônoma em grande escala mostram que o Discrete-WAM alcança desempenho competitivo, ao mesmo tempo em que suporta geração controlável e raciocínio contrafactual, oferecendo um caminho fundamentado para uma tomada de decisão mais confiável.
English
Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.