ChatPaper.aiChatPaper

MotionLM: Multi-Agent-Bewegungsvorhersage als Sprachmodellierung

MotionLM: Multi-Agent Motion Forecasting as Language Modeling

September 28, 2023
Autoren: Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp
cs.AI

Zusammenfassung

Zuverlässige Vorhersagen des zukünftigen Verhaltens von Verkehrsteilnehmern sind eine entscheidende Komponente für sicheres Planen in autonomen Fahrzeugen. Hier repräsentieren wir kontinuierliche Trajektorien als Sequenzen diskreter Bewegungs-Tokens und formulieren die Multi-Agenten-Bewegungsvorhersage als Sprachmodellierungsaufgabe in diesem Bereich. Unser Modell, MotionLM, bietet mehrere Vorteile: Erstens benötigt es keine Anker oder explizite latente Variablenoptimierung, um multimodale Verteilungen zu lernen. Stattdessen nutzen wir ein einziges standardmäßiges Sprachmodellierungsziel, das die durchschnittliche Log-Wahrscheinlichkeit über Sequenz-Tokens maximiert. Zweitens umgeht unser Ansatz nachträgliche Interaktionsheuristiken, bei denen die Trajektoriengenerierung einzelner Agenten vor der interaktiven Bewertung durchgeführt wird. Stattdessen erzeugt MotionLM gemeinsame Verteilungen über interaktive Zukunftsverläufe von Agenten in einem einzigen autoregressiven Dekodierungsprozess. Darüber hinaus ermöglicht die sequenzielle Faktorisierung des Modells zeitlich kausale bedingte Rollouts. Der vorgeschlagene Ansatz erreicht neue Spitzenleistungen in der Multi-Agenten-Bewegungsvorhersage auf dem Waymo Open Motion Dataset und belegt den ersten Platz auf der interaktiven Challenge-Rangliste.
English
Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model's sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.
PDF150December 15, 2024