RAD-2: Skalierung von Reinforcement Learning in einem Generator-Discriminator-Framework
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
April 16, 2026
Autoren: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Zusammenfassung
Hochautomatisiertes Fahren erfordert Bewegungsplaner, die multimodale Zukunftsunsicherheiten modellieren können und gleichzeitig robust in geschlossenen Regelkreisen agieren. Obwohl diffusionsbasierte Planer effektiv komplexe Trajektorienverteilungen modellieren, leiden sie häufig unter stochastischen Instabilitäten und fehlender korrigierender Negativrückmeldung, wenn sie rein mit Imitationslernen trainiert werden. Um diese Probleme zu adressieren, schlagen wir RAD-2 vor, ein vereinheitlichtes Generator-Diskriminator-Framework für die Planung im geschlossenen Regelkreis. Konkret wird ein diffusionsbasierter Generator verwendet, um diverse Trajektorienkandidaten zu erzeugen, während ein durch Reinforcement Learning optimierter Diskriminator diese Kandidaten anhand ihrer langfristigen Fahrqualität neu bewertet. Dieser entkoppelte Entwurf vermeidet die direkte Anwendung sparsamer skalarer Belohnungen auf den vollständigen hochdimensionalen Trajektorienraum und verbessert so die Optimierungsstabilität. Um das Reinforcement Learning weiter zu verbessern, führen wir Temporally Consistent Group Relative Policy Optimization ein, das zeitliche Kohärenz ausnutzt, um das Credit-Assignment-Problem zu mildern. Zusätzlich schlagen wir On-policy Generator Optimization vor, das Regelkreisrückmeldungen in strukturierte longitudinale Optimierungssignale umwandelt und den Generator progressiv in Richtung hochbelohnter Trajektorienmannigfaltigkeiten verschiebt. Um effizientes Training in großem Maßstab zu unterstützen, führen wir BEV-Warp ein, eine hochdurchsatzfähige Simulationsumgebung, die Bewertungen im geschlossenen Regelkreis direkt im Vogelperspektiv-Featureraum mittels räumlicher Verzerrung durchführt. RAD-2 reduziert die Kollisionsrate um 56 % im Vergleich zu starken diffusionsbasierten Planern. Der Einsatz unter realen Bedingungen demonstriert weiterhin eine verbesserte wahrgenommene Sicherheit und Fahrweichheit im komplexen städtischen Verkehr.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.