MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje
MotionLM: Multi-Agent Motion Forecasting as Language Modeling
September 28, 2023
Autores: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI
Resumen
La predicción confiable del comportamiento futuro de los agentes viales es un componente crítico para la planificación segura en vehículos autónomos. Aquí, representamos trayectorias continuas como secuencias de tokens de movimiento discretos y planteamos la predicción de movimiento multiagente como una tarea de modelado del lenguaje en este dominio. Nuestro modelo, MotionLM, ofrece varias ventajas: En primer lugar, no requiere anclajes ni optimización explícita de variables latentes para aprender distribuciones multimodales. En su lugar, aprovechamos un único objetivo estándar de modelado del lenguaje, maximizando la probabilidad logarítmica promedio sobre los tokens de secuencia. En segundo lugar, nuestro enfoque evita heurísticas de interacción post-hoc, donde la generación de trayectorias individuales de agentes se realiza antes de la puntuación interactiva. En cambio, MotionLM produce distribuciones conjuntas sobre futuros interactivos de agentes en un único proceso de decodificación autoregresivo. Además, la factorización secuencial del modelo permite despliegues condicionales temporalmente causales. El enfoque propuesto establece un nuevo estado del arte en rendimiento para la predicción de movimiento multiagente en el conjunto de datos Waymo Open Motion, ocupando el primer puesto en la tabla de clasificación del desafío interactivo.
English
Reliable forecasting of the future behavior of road agents is a critical
component to safe planning in autonomous vehicles. Here, we represent
continuous trajectories as sequences of discrete motion tokens and cast
multi-agent motion prediction as a language modeling task over this domain. Our
model, MotionLM, provides several advantages: First, it does not require
anchors or explicit latent variable optimization to learn multimodal
distributions. Instead, we leverage a single standard language modeling
objective, maximizing the average log probability over sequence tokens. Second,
our approach bypasses post-hoc interaction heuristics where individual agent
trajectory generation is conducted prior to interactive scoring. Instead,
MotionLM produces joint distributions over interactive agent futures in a
single autoregressive decoding process. In addition, the model's sequential
factorization enables temporally causal conditional rollouts. The proposed
approach establishes new state-of-the-art performance for multi-agent motion
prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive
challenge leaderboard.