ChatPaper.aiChatPaper

CaRL: Schaalbaar planningsbeleid leren met eenvoudige beloningen

CaRL: Learning Scalable Planning Policies with Simple Rewards

April 24, 2025
Auteurs: Bernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger
cs.AI

Samenvatting

We onderzoeken reinforcement learning (RL) voor geprivilegieerd plannen in autonoom rijden. State-of-the-art benaderingen voor deze taak zijn regelgebaseerd, maar deze methoden schalen niet goed naar de lange staart. RL daarentegen is schaalbaar en heeft geen last van cumulatieve fouten zoals imitation learning. Hedendaagse RL-benaderingen voor rijden gebruiken complexe vormgegeven beloningen die meerdere individuele beloningen optellen, zoals voortgang, positie of oriëntatiebeloningen. We laten zien dat PPO er niet in slaagt om een populaire versie van deze beloningen te optimaliseren wanneer de mini-batchgrootte wordt vergroot, wat de schaalbaarheid van deze benaderingen beperkt. In plaats daarvan stellen we een nieuw beloningsontwerp voor dat voornamelijk is gebaseerd op het optimaliseren van een enkele intuïtieve beloningsterm: routevoltooiing. Overtredingen worden bestraft door de aflevering te beëindigen of door routevoltooiing multiplicatief te verminderen. We ontdekken dat PPO goed schaalt met grotere mini-batchgroottes wanneer het wordt getraind met onze eenvoudige beloning, en zelfs de prestaties verbetert. Trainen met grote mini-batchgroottes maakt efficiënte schaalbaarheid mogelijk via gedistribueerde dataparalleliteit. We schalen PPO op naar 300M samples in CARLA en 500M samples in nuPlan met een enkele 8-GPU-node. Het resulterende model behaalt 64 DS op de CARLA longest6 v2 benchmark, en overtreft andere RL-methoden met complexere beloningen met een grote marge. Met slechts minimale aanpassingen ten opzichte van het gebruik in CARLA, is dezelfde methode de beste op leren gebaseerde benadering op nuPlan. Het scoort 91,3 in niet-reactief en 90,6 in reactief verkeer op de Val14 benchmark, terwijl het een orde van grootte sneller is dan eerder werk.
English
We investigate reinforcement learning (RL) for privileged planning in autonomous driving. State-of-the-art approaches for this task are rule-based, but these methods do not scale to the long tail. RL, on the other hand, is scalable and does not suffer from compounding errors like imitation learning. Contemporary RL approaches for driving use complex shaped rewards that sum multiple individual rewards, \eg~progress, position, or orientation rewards. We show that PPO fails to optimize a popular version of these rewards when the mini-batch size is increased, which limits the scalability of these approaches. Instead, we propose a new reward design based primarily on optimizing a single intuitive reward term: route completion. Infractions are penalized by terminating the episode or multiplicatively reducing route completion. We find that PPO scales well with higher mini-batch sizes when trained with our simple reward, even improving performance. Training with large mini-batch sizes enables efficient scaling via distributed data parallelism. We scale PPO to 300M samples in CARLA and 500M samples in nuPlan with a single 8-GPU node. The resulting model achieves 64 DS on the CARLA longest6 v2 benchmark, outperforming other RL methods with more complex rewards by a large margin. Requiring only minimal adaptations from its use in CARLA, the same method is the best learning-based approach on nuPlan. It scores 91.3 in non-reactive and 90.6 in reactive traffic on the Val14 benchmark while being an order of magnitude faster than prior work.
PDF42May 4, 2025