Discrete-WAM: Унифицированное дискретное редактирование токенов видения-действия для обучения модели мира и политики
Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
June 4, 2026
Авторы: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye
cs.AI
Аннотация
Автономное вождение требует рассуждений о том, как действия эго-агента формируют эволюцию окружающего мира. Однако большинство сквозных методов полагаются на прямые отображения «состояние-действие», улавливая корреляции без явного моделирования динамики, обусловленной действиями. В то же время непрерывно-латентные модели мира часто лишены композиционной структуры, необходимой для каузального рассуждения о контрфактических будущих состояниях. Мы представляем Discrete-WAM — единую латентную политику зрения-действия мира, которая представляет будущие визуальные состояния и действия эго-агента в виде выровненных дискретных токенов, что позволяет проводить композиционное каузальное рассуждение об альтернативных будущих сценариях. Основываясь на таком едином дискретном выравнивании, Discrete-WAM устанавливает общую структуру дискретной диффузии с унифицированными генеративными задачами, совместно формулируя моделирование мира, политику мира-действия и иерархическую политику, поддерживающую принятие решений, что обеспечивает композиционное обобщение в разнообразных сценариях вождения. Эксперименты на крупномасштабных эталонах автономного вождения показывают, что Discrete-WAM достигает конкурентоспособной производительности, поддерживая при этом управляемую генерацию и контрфактическое рассуждение, предлагая принципиальный путь к более надежному принятию решений.
English
Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.