MotionLM: Прогнозирование движения множества агентов как моделирование языка
MotionLM: Multi-Agent Motion Forecasting as Language Modeling
September 28, 2023
Авторы: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI
Аннотация
Надежное прогнозирование будущего поведения участников дорожного движения является критически важным компонентом для безопасного планирования в автономных транспортных средствах. В данной работе мы представляем непрерывные траектории в виде последовательностей дискретных токенов движения и формулируем задачу прогнозирования движения множества агентов как задачу языкового моделирования в этой области. Наша модель, MotionLM, предлагает несколько преимуществ: во-первых, она не требует использования якорей или явной оптимизации скрытых переменных для изучения многомодальных распределений. Вместо этого мы используем стандартную задачу языкового моделирования, максимизируя среднюю логарифмическую вероятность токенов последовательности. Во-вторых, наш подход обходит эвристики постобработки взаимодействий, где генерация траекторий отдельных агентов выполняется до оценки их взаимодействия. Вместо этого MotionLM создает совместные распределения по будущим состояниям взаимодействующих агентов в рамках единого авторегрессионного процесса декодирования. Кроме того, последовательная факторизация модели позволяет выполнять условные развертки с временной причинностью. Предложенный подход устанавливает новый уровень наилучших результатов в задаче прогнозирования движения множества агентов на наборе данных Waymo Open Motion Dataset, занимая первое место в рейтинге интерактивного соревнования.
English
Reliable forecasting of the future behavior of road agents is a critical
component to safe planning in autonomous vehicles. Here, we represent
continuous trajectories as sequences of discrete motion tokens and cast
multi-agent motion prediction as a language modeling task over this domain. Our
model, MotionLM, provides several advantages: First, it does not require
anchors or explicit latent variable optimization to learn multimodal
distributions. Instead, we leverage a single standard language modeling
objective, maximizing the average log probability over sequence tokens. Second,
our approach bypasses post-hoc interaction heuristics where individual agent
trajectory generation is conducted prior to interactive scoring. Instead,
MotionLM produces joint distributions over interactive agent futures in a
single autoregressive decoding process. In addition, the model's sequential
factorization enables temporally causal conditional rollouts. The proposed
approach establishes new state-of-the-art performance for multi-agent motion
prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive
challenge leaderboard.