Discrete-WAM: Einheitliche diskrete Vision-Action-Token-Editierung für das World-Policy-Lernen

Zusammenfassung

Autonomes Fahren erfordert Überlegungen darüber, wie Eigenaktionen die Entwicklung der Umgebung beeinflussen. Die meisten Ende-zu-Ende-Methoden basieren jedoch auf direkten Zustands-Aktions-Abbildungen, die Korrelationen erfassen, ohne die aktionsbedingte Dynamik explizit zu modellieren. Hingegen fehlt kontinuierlichen latenten Weltmodellen oft eine kompositionelle Struktur für kausales Denken über kontrafaktische Zukünfte hinweg. Wir stellen Discrete-WAM vor, eine einheitliche latente Weltpolitik für visuelle Wahrnehmung und Aktionen, die zukünftige visuelle Zustände und Eigenaktionen als ausgerichtete diskrete Token repräsentiert und so kompositionelles kausales Denken über alternative Zukünfte ermöglicht. Aufbauend auf dieser einheitlichen diskreten Ausrichtung etabliert Discrete-WAM ein gemeinsames diskretes Diffusionsframework mit einheitlichen generativen Aufgaben, das Weltmodellierung, Welt-Aktionspolitik und hierarchische entscheidungsfähige Politik gemeinsam formuliert und so kompositionelle Generalisierung über verschiedene Fahrszenarien hinweg unterstützt. Experimente auf groß angelegten Benchmarks für autonomes Fahren zeigen, dass Discrete-WAM eine wettbewerbsfähige Leistung erzielt, während es kontrollierbare Generierung und kontrafaktisches Denken unterstützt und so einen prinzipientreuen Weg zu zuverlässigeren Entscheidungen bietet.

English

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.