ChatPaper.aiChatPaper

RAD-2: 생성기-판별기 프레임워크에서의 강화 학습 확장

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

April 16, 2026
저자: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI

초록

고수준 자율 주행은 다중 모드 미래 불확실성을 모델링하면서도 폐루프 상호작용에서 견고성을 유지할 수 있는 모션 플래너를 필요로 합니다. 확산 기반 플래너는 복잡한 궤적 분포를 모델링하는 데 효과적이지만, 순수 모방 학습으로 훈련될 경우 확률적 불안정성과 수정적 부정 피드백의 부재 문제를 자주 겪습니다. 이러한 문제를 해결하기 위해 우리는 폐루프 주행 계획을 위한 통합 생성자-판별자 프레임워크인 RAD-2를 제안합니다. 구체적으로, 확산 기반 생성자는 다양한 궤적 후보를 생성하는 데 사용되고, RL 최적화 판별자는 장기 주행 품질에 따라 이러한 후보들을 재순위화합니다. 이 분리된 설계는 희소 스칼라 보상을 전체 고차원 궤적 공간에 직접 적용하는 것을 피함으로써 최적화 안정성을 향상시킵니다. 강화 학습을 더욱 향상시키기 위해, 우리는 시간적 일관성을 활용하여 크레딧 할당 문제를 완화하는 시간적 일관성 그룹 상대 정책 최적화를 도입합니다. 또한 폐루프 피드백을 구조화된 종방향 최적화 신호로 변환하고 생성자를 점진적으로 고보상 궤적 다양체로 이동시키는 온-정책 생성자 최적화를 제안합니다. 효율적인 대규모 훈련을 지원하기 위해, 우리는 공간 와핑을 통해 Bird's-Eye View 특징 공간에서 직접 폐루프 평가를 수행하는 고처리량 시뮬레이션 환경인 BEV-Warp를 소개합니다. RAD-2는 강력한 확산 기반 플래너 대비 충돌률을 56% 감소시킵니다. 실제 도로 주행 결과는 복잡한 도시 교통 환경에서 인지된 안전성과 주행 부드러움이 개선되었음을 추가로 입증합니다.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.
PDF213April 18, 2026