RAD-2: Масштабирование обучения с подкреплением в рамках генеративно-дискриминаторной архитектуры

Аннотация

Высокоуровневое автономное вождение требует планировщиков движения, способных моделировать многомодальные будущие неопределенности, сохраняя при этом устойчивость в замкнутых контурах взаимодействия. Хотя диффузионные планировщики эффективно моделируют сложные распределения траекторий, они часто страдают от стохастической нестабильности и отсутствия корректирующей отрицательной обратной связи при обучении исключительно на имитации. Для решения этих проблем мы предлагаем RAD-2 — унифицированную генераторно-дискриминаторную структуру для замкнутого планирования. В частности, генератор на основе диффузии используется для создания разнообразных кандидатных траекторий, а оптимизированный с помощью обучения с подкреплением дискриминатор переранжирует эти кандидаты в соответствии с их долгосрочным качеством вождения. Такая развязанная конструкция позволяет избежать прямого применения разреженных скалярных вознаграждений ко всему высокоразмерному пространству траекторий, тем самым повышая устойчивость оптимизации. Для дальнейшего улучшения обучения с подкреплением мы вводим метод оптимизации групповой относительной политики с временной согласованностью, который использует временную когерентность для смягчения проблемы распределения заслуг. Кроме того, мы предлагаем оптимизацию генератора на стратегии, которая преобразует обратную связь замкнутого контура в структурированные продольные сигналы оптимизации и постепенно смещает генератор в сторону многообразий траекторий с высоким вознаграждением. Для поддержки эффективного масштабного обучения мы представляем BEV-Warp — высокопроизводительную среду моделирования, которая выполняет оценку в замкнутом контуре непосредственно в пространстве признаков вида с высоты птичьего полета посредством пространственного преобразования. RAD-2 снижает частоту столкновений на 56% по сравнению с мощными диффузионными планировщиками. Развертывание в реальных условиях дополнительно демонстрирует улучшение воспринимаемой безопасности и плавности вождения в условиях сложного городского трафика.

English

High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.

RAD-2: Масштабирование обучения с подкреплением в рамках генеративно-дискриминаторной архитектуры

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Аннотация

Support