Discrete-WAM: Edición unificada de tokens discretos de visión-acción para el aprendizaje de política-mundo

Resumen

La conducción autónoma requiere razonar sobre cómo las acciones del ego moldean la evolución del mundo circundante. Sin embargo, la mayoría de los métodos de extremo a extremo se basan en mapeos directos de estado a acción, capturando correlaciones sin modelar explícitamente las dinámicas condicionadas por la acción. Por el contrario, los modelos de mundo con espacio latente continuo a menudo carecen de estructura composicional para el razonamiento causal a través de futuros contrafácticos. Presentamos Discrete-WAM, una política de mundo visión-acción latente unificada que representa los estados visuales futuros y las acciones del ego como tokens discretos alineados, permitiendo el razonamiento causal composicional a través de futuros alternativos. Basado en esta alineación discreta unificada, Discrete-WAM establece un marco de difusión discreta compartido con tareas generativas unificadas, formulando conjuntamente el modelado del mundo, la política mundo-acción y la política habilitada por decisiones jerárquicas, apoyando la generalización composicional en diversos escenarios de conducción. Los experimentos en puntos de referencia de conducción autónoma a gran escala muestran que Discrete-WAM logra un rendimiento competitivo mientras apoya la generación controlable y el razonamiento contrafáctico, ofreciendo un camino fundamentado hacia una toma de decisiones más fiable.

English

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.