Discrete-WAM: 통합 이산 시각-행동 토큰 편집을 통한 세계-정책 학습
Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
June 4, 2026
저자: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye
cs.AI
초록
자율주행은 자아 행동이 주변 세계의 진화를 어떻게 형성하는지에 대한 추론을 필요로 한다. 그러나 대부분의 엔드투엔드 방법은 직접적인 상태-행동 매핑에 의존하여, 행동 조건 역학을 명시적으로 모델링하지 않고 상관관계만 포착한다. 반면, 연속 잠재 세계 모델은 반사실적 미래에 걸친 인과 추론을 위한 구성적 구조가 부족한 경우가 많다. 우리는 미래의 시각적 상태와 자아 행동을 정렬된 이산 토큰으로 표현하여, 대안적 미래에 걸친 구성적 인과 추론을 가능하게 하는 통합 잠재 시각-행동 세계 정책인 Discrete-WAM을 소개한다. 이 통합된 이산 정렬을 기반으로, Discrete-WAM은 통합 생성 작업을 갖춘 공유 이산 확산 프레임워크를 구축하여 세계 모델링, 세계-행동 정책 및 계층적 결정 가능 정책을 공동으로 정식화하며, 다양한 주행 시나리오에 걸친 구성적 일반화를 지원한다. 대규모 자율주행 벤치마크에 대한 실험 결과, Discrete-WAM이 제어 가능한 생성 및 반사실적 추론을 지원하면서 경쟁력 있는 성능을 달성하며, 보다 신뢰할 수 있는 의사 결정을 위한 원칙적인 경로를 제공함을 보여준다.
English
Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.