RAD-2: Escalando el Aprendizaje por Refuerzo en un Marco de Trabajo Generador-Discriminador
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
April 16, 2026
Autores: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Resumen
La conducción autónoma de alto nivel requiere planificadores de movimiento capaces de modelar incertidumbres futuras multimodales manteniendo la robustez en interacciones de bucle cerrado. Aunque los planificadores basados en difusión son efectivos para modelar distribuciones complejas de trayectorias, a menudo sufren de inestabilidades estocásticas y la falta de retroalimentación negativa correctiva cuando se entrenan únicamente con aprendizaje por imitación. Para abordar estos problemas, proponemos RAD-2, un marco unificado generador-discriminador para planificación en bucle cerrado. Específicamente, se utiliza un generador basado en difusión para producir diversos candidatos de trayectoria, mientras que un discriminador optimizado por RL (aprendizaje por refuerzo) reclasifica estos candidatos según su calidad de conducción a largo plazo. Este diseño desacoplado evita aplicar recompensas escalares dispersas directamente al espacio completo de trayectorias de alta dimensión, mejorando así la estabilidad de la optimización. Para mejorar aún más el aprendizaje por refuerzo, introducimos la Optimización de Política Relativa Grupal con Coherencia Temporal, que explota la coherencia temporal para aliviar el problema de asignación de crédito. Adicionalmente, proponemos la Optimización del Generador sobre la Política, que convierte la retroalimentación de bucle cerrado en señales estructuradas de optimización longitudinal y desplaza progresivamente al generador hacia variedades de trayectoria de alta recompensa. Para soportar un entrenamiento a gran escala eficiente, introducimos BEV-Warp, un entorno de simulación de alto rendimiento que realiza evaluación en bucle cerrado directamente en el espacio de características de Vista de Ojo de Pájaro mediante deformación espacial. RAD-2 reduce la tasa de colisiones en un 56% en comparación con planificadores fuertes basados en difusión. El despliegue en el mundo real demuestra además una mejora en la seguridad percibida y la suavidad de conducción en tráfico urbano complejo.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.