MotionLM: Прогнозирование движения множества агентов как моделирование языка

Аннотация

Надежное прогнозирование будущего поведения участников дорожного движения является критически важным компонентом для безопасного планирования в автономных транспортных средствах. В данной работе мы представляем непрерывные траектории в виде последовательностей дискретных токенов движения и формулируем задачу прогнозирования движения множества агентов как задачу языкового моделирования в этой области. Наша модель, MotionLM, предлагает несколько преимуществ: во-первых, она не требует использования якорей или явной оптимизации скрытых переменных для изучения многомодальных распределений. Вместо этого мы используем стандартную задачу языкового моделирования, максимизируя среднюю логарифмическую вероятность токенов последовательности. Во-вторых, наш подход обходит эвристики постобработки взаимодействий, где генерация траекторий отдельных агентов выполняется до оценки их взаимодействия. Вместо этого MotionLM создает совместные распределения по будущим состояниям взаимодействующих агентов в рамках единого авторегрессионного процесса декодирования. Кроме того, последовательная факторизация модели позволяет выполнять условные развертки с временной причинностью. Предложенный подход устанавливает новый уровень наилучших результатов в задаче прогнозирования движения множества агентов на наборе данных Waymo Open Motion Dataset, занимая первое место в рейтинге интерактивного соревнования.

English

Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model's sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.

MotionLM: Прогнозирование движения множества агентов как моделирование языка

MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Аннотация

Support