RAD-2 : Mise à l'échelle de l'apprentissage par renforcement dans un cadre générateur-discriminateur
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
April 16, 2026
Auteurs: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Résumé
La conduite autonome de haut niveau nécessite des planificateurs de mouvement capables de modéliser les incertitudes multimodales futures tout en restant robustes dans les interactions en boucle fermée. Bien que les planificateurs à base de diffusion soient efficaces pour modériser des distributions de trajectoires complexes, ils souffrent souvent d'instabilités stochastiques et d'un manque de rétroaction corrective négative lorsqu'ils sont entraînés uniquement par apprentissage par imitation. Pour résoudre ces problèmes, nous proposons RAD-2, un framework unifié générateur-discriminateur pour la planification en boucle fermée. Concrètement, un générateur basé sur la diffusion produit des candidats de trajectoires diversifiés, tandis qu'un discriminateur optimisé par apprentissage par renforcement reclasse ces candidats selon leur qualité de conduite à long terme. Cette conception découplée évite d'appliquer directement des récompenses scalaires éparses à l'espace complet de trajectoires de haute dimension, améliorant ainsi la stabilité de l'optimisation. Pour renforcer davantage l'apprentissage par renforcement, nous introduisons l'Optimisation de Politique Relative par Groupe à Cohérence Temporelle, qui exploite la cohérence temporelle pour atténuer le problème d'attribution de crédit. De plus, nous proposons l'Optimisation de Générateur sur Politique, qui convertit la rétroaction en boucle fermée en signaux d'optimisation longitudinale structurés et déplace progressivement le générateur vers des variétés de trajectoires à haute récompense. Pour supporter un entraînement à grande échelle efficace, nous introduisons BEV-Warp, un environnement de simulation à haut débit qui effectue l'évaluation en boucle fermée directement dans l'espace de caractéristiques en vue de dessus par warping spatial. RAD-2 réduit le taux de collision de 56% par rapport aux planificateurs robustes basés sur la diffusion. Un déploiement en conditions réelles démontre en outre une sécurité perçue et une fluidité de conduite améliorées dans un trafic urbain complexe.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.