RAD-2: Scalare l'Apprendimento per Rinforzo in un'Architettura Generatore-Discriminatore
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
April 16, 2026
Autori: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Abstract
La guida autonoma di alto livello richiede pianificatori di movimento in grado di modellare le incertezze multimodali future, mantenendo al contempo robustezza nelle interazioni a ciclo chiuso. Sebbene i pianificatori basati su diffusione siano efficaci nel modellare distribuzioni complesse di traiettorie, spesso soffrono di instabilità stocastiche e della mancanza di feedback negativo correttivo quando addestrati esclusivamente con apprendimento per imitazione. Per affrontare questi problemi, proponiamo RAD-2, un framework unificato generatore-discriminatore per la pianificazione a ciclo chiuso. Nello specifico, un generatore basato su diffusione produce candidati di traiettoria diversificati, mentre un discriminatore ottimizzato con RL riclassifica questi candidati in base alla loro qualità di guida a lungo termine. Questo design disaccoppiato evita di applicare direttamente ricompense scalari sparse all'intero spazio ad alta dimensionalità delle traiettorie, migliorando così la stabilità dell'ottimizzazione. Per potenziare ulteriormente l'apprendimento per rinforzo, introduciamo l'ottimizzazione delle politiche relative di gruppo temporalmente coerenti, che sfrutta la coerenza temporale per alleviare il problema dell'assegnazione del credito. Inoltre, proponiamo l'ottimizzazione del generatore on-policy, che converte il feedback a ciclo chiuso in segnali di ottimizzazione longitudinale strutturati e sposta progressivamente il generatore verso le varietà di traiettorie ad alta ricompensa. Per supportare un addestramento su larga scala efficiente, introduciamo BEV-Warp, un ambiente di simulazione ad alta produttività che esegue valutazioni a ciclo chiuso direttamente nello spazio delle caratteristiche Bird's-Eye View tramite deformazione spaziale. RAD-2 riduce il tasso di collisioni del 56% rispetto a potenti pianificatori basati su diffusione. Il dispiegamento nel mondo reale dimostra inoltre un miglioramento della sicurezza percepita e della fluidità di guida nel traffico urbano complesso.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.