FlowR2A: Het leren van de beloning-naar-actie distributie voor multimodale rijplanning

Samenvatting

Multimodale rijdplanning kent een al lang bestaande spanning tussen twee paradigma's: op scores gebaseerde methoden profiteren van dichte beloningssupervisie, maar zijn beperkt tot een vaste actiewoordenschat, terwijl op ankers gebaseerde methoden dynamisch voorstellen genereren, maar te lijden hebben onder schaarse supervisie die beperkt is tot één enkele grondwaarheidstraject. In dit werk stellen we FlowR2A voor, die deze spanning oplost door op simulatie gebaseerde beloningen te herkaderen van discriminatieve doelen naar generatieve condities. Door de beloningsgeconditioneerde actieverdeling te leren uit dichte traject-beloningsparen met een flow-matchingdecoder, verenigt FlowR2A de dichte supervisie van op scores gebaseerde methoden met de voorstelgeneratie van op ankers gebaseerde methoden in één enkel generatief model, waardoor het model gedwongen wordt de correlatie tussen een actie en de uitkomsten ervan op het gebied van veiligheid, voortgang, comfort en regelconformiteit te internaliseren. Om harde veiligheidsbeperkingen in balans te brengen met zachte voortgangsdoelstellingen, introduceren we fijnmazige beloningsconditionering per tijdstap en ruisaugmentatie van beloningen. De generatieve formulering ondersteunt van nature controleerbare testtijdsampling via beloningssturing en verankerde sampling, wat resulteert in voorstellen van hoge kwaliteit. FlowR2A behaalt state-of-the-art resultaten op de NAVSIM v1- en v2-benchmarks, met multimodale voorstellen van aanzienlijk hogere kwaliteit dan eerdere methoden.

English

Multimodal driving planning faces a long-standing tension between two paradigms: scoring-based methods benefit from dense reward supervision but are confined to a fixed action vocabulary, while anchor-based methods generate proposals dynamically yet suffer from sparse supervision constrained to a single ground-truth trajectory. In this work, we propose FlowR2A, which resolves this tension by reframing simulation-based rewards from discriminative targets into generative conditions. By learning the reward-conditioned action distribution from dense trajectory-reward pairs with a flow-matching decoder, FlowR2A unifies the dense supervision of scoring-based methods with the proposal generation of anchor-based methods in a single generative model, forcing the model to internalize the correlation between an action and its outcomes in safety, progress, comfort, and rule compliance. To balance hard safety constraints against soft progress objectives, we introduce fine-grained per-timestep reward conditioning and reward noise augmentation. The generative formulation naturally supports controllable test-time sampling via reward guidance and anchored sampling, producing high-quality proposals. FlowR2A achieves state-of-the-art results on the NAVSIM v1 and v2 benchmarks, with multimodal proposals of substantially higher quality than prior methods.