RAD-2: Dimensionando o Aprendizado por Reforço em uma Estrutura de Gerador-Discriminador
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
April 16, 2026
Autores: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Resumo
A condução autónoma de alto nível requer planeadores de movimento capazes de modelar incertezas futuras multimodais, mantendo-se robustos em interações de ciclo fechado. Embora os planeadores baseados em difusão sejam eficazes na modelação de distribuições complexas de trajetórias, frequentemente sofrem de instabilidades estocásticas e da falta de *feedback* corretivo negativo quando treinados apenas com aprendizagem por imitação. Para resolver estas questões, propomos o RAD-2, um *framework* unificado de gerador-discriminador para planeamento em ciclo fechado. Especificamente, um gerador baseado em difusão é usado para produzir candidatos de trajetória diversos, enquanto um discriminador otimizado por Aprendizagem por Reforço (RL) reclassifica estes candidatos de acordo com a sua qualidade de condução a longo prazo. Este design desacoplado evita a aplicação direta de recompensas esparsas ao espaço completo de trajetórias de alta dimensão, melhorando assim a estabilidade da otimização. Para melhorar ainda mais a aprendizagem por reforço, introduzimos a Otimização de Política Relativa de Grupo Temporalmente Consistente, que explora a coerência temporal para aliviar o problema de atribuição de crédito. Adicionalmente, propomos a Otimização de Gerador *On-policy*, que converte o *feedback* de ciclo fechado em sinais de otimização longitudinal estruturados e desloca progressivamente o gerador para *manifolds* de trajetória de alta recompensa. Para suportar um treino eficiente em larga escala, introduzimos o BEV-Warp, um ambiente de simulação de alto débito que realiza avaliação em ciclo fechado diretamente no espaço de características de Visão Topográfica (*Bird's-Eye View*) através de deformação espacial. O RAD-2 reduz a taxa de colisão em 56% em comparação com planeadores baseados em difusão robustos. A implementação no mundo real demonstra ainda uma melhoria na segurança percebida e na suavidade de condução em tráfego urbano complexo.
English
High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.