MotionLM : Prévision du mouvement multi-agent sous forme de modélisation du langage
MotionLM: Multi-Agent Motion Forecasting as Language Modeling
September 28, 2023
Auteurs: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI
Résumé
La prévision fiable du comportement futur des agents routiers est un élément essentiel pour une planification sécurisée dans les véhicules autonomes. Ici, nous représentons les trajectoires continues comme des séquences de tokens de mouvement discrets et formulons la prédiction de mouvement multi-agent comme une tâche de modélisation du langage dans ce domaine. Notre modèle, MotionLM, offre plusieurs avantages : Premièrement, il ne nécessite pas d'ancres ni d'optimisation explicite de variables latentes pour apprendre des distributions multimodales. Au lieu de cela, nous exploitons un objectif unique de modélisation du langage, maximisant la probabilité logarithmique moyenne sur les tokens de séquence. Deuxièmement, notre approche contourne les heuristiques d'interaction post-hoc où la génération de trajectoires individuelles des agents est effectuée avant le calcul interactif. Au contraire, MotionLM produit des distributions conjointes sur les futurs interactifs des agents en un seul processus de décodage autorégressif. De plus, la factorisation séquentielle du modèle permet des déploiements conditionnels temporellement causaux. L'approche proposée établit de nouvelles performances de pointe pour la prédiction de mouvement multi-agent sur le Waymo Open Motion Dataset, se classant première sur le classement du défi interactif.
English
Reliable forecasting of the future behavior of road agents is a critical
component to safe planning in autonomous vehicles. Here, we represent
continuous trajectories as sequences of discrete motion tokens and cast
multi-agent motion prediction as a language modeling task over this domain. Our
model, MotionLM, provides several advantages: First, it does not require
anchors or explicit latent variable optimization to learn multimodal
distributions. Instead, we leverage a single standard language modeling
objective, maximizing the average log probability over sequence tokens. Second,
our approach bypasses post-hoc interaction heuristics where individual agent
trajectory generation is conducted prior to interactive scoring. Instead,
MotionLM produces joint distributions over interactive agent futures in a
single autoregressive decoding process. In addition, the model's sequential
factorization enables temporally causal conditional rollouts. The proposed
approach establishes new state-of-the-art performance for multi-agent motion
prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive
challenge leaderboard.