RAD-2: Het Opschalen van Reinforcement Learning in een Generator-Discriminator Framework

Samenvatting

Hoogwaardige autonome voertuigen vereisen bewegingsplanners die multimodale toekomstige onzekerheden kunnen modelleren, terwijl ze robuust blijven in gesloten-lus interacties. Hoewel op diffusie gebaseerde planners effectief zijn in het modelleren van complexe trajectverdelingen, lijden ze vaak onder stochastische instabiliteiten en een gebrek aan corrigerende negatieve feedback wanneer ze puur met imitatieleren worden getraind. Om deze problemen aan te pakken, stellen we RAD-2 voor, een uniform generator-discriminator raamwerk voor gesloten-lus planning. Concreet wordt een op diffusie gebaseerde generator gebruikt om diverse trajectkandidaten te produceren, terwijl een met reinforcement learning geoptimaliseerde discriminator deze kandidaten herrangschikt op basis van hun langetermijn rij-kwaliteit. Dit ontkoppelde ontwerp vermijdt het direct toepassen van schaarse scalaire beloningen op de volledige hoogdimensionale trajectruimte, waardoor de optimalisatiestabiliteit verbetert. Om reinforcement learning verder te verbeteren, introduceren we Temporally Consistent Group Relative Policy Optimization, dat temporele coherentie benut om het credit assignment probleem te verlichten. Daarnaast stellen we On-policy Generator Optimalisatie voor, dat gesloten-lus feedback omzet in gestructureerde longitudinale optimalisatiesignalen en de generator geleidelijk verschuift naar hoogbeloonde trajectvariëteiten. Om grootschalige training efficiënt te ondersteunen, introduceren we BEV-Warp, een hoogdoorzet simulatiewerkomgeving die gesloten-lus evaluatie direct in het Bird's-Eye View kenmerkruimte uitvoert via spatial warping. RAD-2 vermindert het aanrijdingspercentage met 56% vergeleken met sterke op diffusie gebaseerde planners. Inzet in de echte wereld demonstreert verder een verbeterde waargenomen veiligheid en rij-soepelheid in complex stedelijk verkeer.

English

High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.

RAD-2: Het Opschalen van Reinforcement Learning in een Generator-Discriminator Framework

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Samenvatting

Support