MotionLM: Previsão de Movimento Multiagente como Modelagem de Linguagem
MotionLM: Multi-Agent Motion Forecasting as Language Modeling
September 28, 2023
Autores: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI
Resumo
A previsão confiável do comportamento futuro dos agentes na estrada é um componente crítico para o planejamento seguro em veículos autônomos. Aqui, representamos trajetórias contínuas como sequências de tokens discretos de movimento e transformamos a previsão de movimento multiagente em uma tarefa de modelagem de linguagem nesse domínio. Nosso modelo, MotionLM, oferece várias vantagens: Primeiro, ele não requer âncoras ou otimização explícita de variáveis latentes para aprender distribuições multimodais. Em vez disso, aproveitamos um único objetivo padrão de modelagem de linguagem, maximizando a probabilidade logarítmica média sobre os tokens da sequência. Segundo, nossa abordagem contorna heurísticas de interação pós-processo, onde a geração de trajetórias individuais dos agentes é realizada antes da pontuação interativa. Em vez disso, o MotionLM produz distribuições conjuntas sobre futuros interativos dos agentes em um único processo de decodificação autoregressivo. Além disso, a fatoração sequencial do modelo permite simulações condicionais temporalmente causais. A abordagem proposta estabelece um novo desempenho de ponta para a previsão de movimento multiagente no Waymo Open Motion Dataset, ocupando o 1º lugar no quadro de líderes do desafio interativo.
English
Reliable forecasting of the future behavior of road agents is a critical
component to safe planning in autonomous vehicles. Here, we represent
continuous trajectories as sequences of discrete motion tokens and cast
multi-agent motion prediction as a language modeling task over this domain. Our
model, MotionLM, provides several advantages: First, it does not require
anchors or explicit latent variable optimization to learn multimodal
distributions. Instead, we leverage a single standard language modeling
objective, maximizing the average log probability over sequence tokens. Second,
our approach bypasses post-hoc interaction heuristics where individual agent
trajectory generation is conducted prior to interactive scoring. Instead,
MotionLM produces joint distributions over interactive agent futures in a
single autoregressive decoding process. In addition, the model's sequential
factorization enables temporally causal conditional rollouts. The proposed
approach establishes new state-of-the-art performance for multi-agent motion
prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive
challenge leaderboard.