MotionLM: Multi-Agent Bewegingsvoorspelling als Taalmodelering
MotionLM: Multi-Agent Motion Forecasting as Language Modeling
September 28, 2023
Auteurs: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI
Samenvatting
Betrouwbare voorspelling van het toekomstige gedrag van weggebruikers is een cruciaal onderdeel van veilige planning in autonome voertuigen. Hier representeren we continue trajecten als reeksen van discrete bewegings-tokens en formuleren we multi-agent bewegingsvoorspelling als een taalmodelleertaak binnen dit domein. Ons model, MotionLM, biedt verschillende voordelen: Ten eerste vereist het geen ankers of expliciete optimalisatie van latente variabelen om multimodale distributies te leren. In plaats daarvan maken we gebruik van een enkel standaard taalmodelleerdoel, waarbij we de gemiddelde logwaarschijnlijkheid over sequentietokens maximaliseren. Ten tweede omzeilt onze aanpak post-hoc interactieheuristieken waarbij de trajectgeneratie van individuele agents voorafgaat aan interactieve scoring. In plaats daarvan produceert MotionLM gezamenlijke distributies over interactieve agenttoekomsten in een enkel autoregressief decodeerproces. Bovendien maakt de sequentiële factorisatie van het model temporeel causale conditionele rollouts mogelijk. De voorgestelde aanpak vestigt nieuwe state-of-the-art prestaties voor multi-agent bewegingsvoorspelling op de Waymo Open Motion Dataset, en staat op de eerste plaats op de interactieve challenge leaderboard.
English
Reliable forecasting of the future behavior of road agents is a critical
component to safe planning in autonomous vehicles. Here, we represent
continuous trajectories as sequences of discrete motion tokens and cast
multi-agent motion prediction as a language modeling task over this domain. Our
model, MotionLM, provides several advantages: First, it does not require
anchors or explicit latent variable optimization to learn multimodal
distributions. Instead, we leverage a single standard language modeling
objective, maximizing the average log probability over sequence tokens. Second,
our approach bypasses post-hoc interaction heuristics where individual agent
trajectory generation is conducted prior to interactive scoring. Instead,
MotionLM produces joint distributions over interactive agent futures in a
single autoregressive decoding process. In addition, the model's sequential
factorization enables temporally causal conditional rollouts. The proposed
approach establishes new state-of-the-art performance for multi-agent motion
prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive
challenge leaderboard.