Discrete-WAM: Унифицированное дискретное редактирование токенов видения-действия для обучения модели мира и политики

Аннотация

Автономное вождение требует рассуждений о том, как действия эго-агента формируют эволюцию окружающего мира. Однако большинство сквозных методов полагаются на прямые отображения «состояние-действие», улавливая корреляции без явного моделирования динамики, обусловленной действиями. В то же время непрерывно-латентные модели мира часто лишены композиционной структуры, необходимой для каузального рассуждения о контрфактических будущих состояниях. Мы представляем Discrete-WAM — единую латентную политику зрения-действия мира, которая представляет будущие визуальные состояния и действия эго-агента в виде выровненных дискретных токенов, что позволяет проводить композиционное каузальное рассуждение об альтернативных будущих сценариях. Основываясь на таком едином дискретном выравнивании, Discrete-WAM устанавливает общую структуру дискретной диффузии с унифицированными генеративными задачами, совместно формулируя моделирование мира, политику мира-действия и иерархическую политику, поддерживающую принятие решений, что обеспечивает композиционное обобщение в разнообразных сценариях вождения. Эксперименты на крупномасштабных эталонах автономного вождения показывают, что Discrete-WAM достигает конкурентоспособной производительности, поддерживая при этом управляемую генерацию и контрфактическое рассуждение, предлагая принципиальный путь к более надежному принятию решений.

English

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.