MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje

Resumen

La predicción confiable del comportamiento futuro de los agentes viales es un componente crítico para la planificación segura en vehículos autónomos. Aquí, representamos trayectorias continuas como secuencias de tokens de movimiento discretos y planteamos la predicción de movimiento multiagente como una tarea de modelado del lenguaje en este dominio. Nuestro modelo, MotionLM, ofrece varias ventajas: En primer lugar, no requiere anclajes ni optimización explícita de variables latentes para aprender distribuciones multimodales. En su lugar, aprovechamos un único objetivo estándar de modelado del lenguaje, maximizando la probabilidad logarítmica promedio sobre los tokens de secuencia. En segundo lugar, nuestro enfoque evita heurísticas de interacción post-hoc, donde la generación de trayectorias individuales de agentes se realiza antes de la puntuación interactiva. En cambio, MotionLM produce distribuciones conjuntas sobre futuros interactivos de agentes en un único proceso de decodificación autoregresivo. Además, la factorización secuencial del modelo permite despliegues condicionales temporalmente causales. El enfoque propuesto establece un nuevo estado del arte en rendimiento para la predicción de movimiento multiagente en el conjunto de datos Waymo Open Motion, ocupando el primer puesto en la tabla de clasificación del desafío interactivo.

English

Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model's sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.

MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje

MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Resumen

Support