MotionLM: Previsione del Movimento Multi-Agente come Modellazione del Linguaggio

Abstract

La previsione affidabile del comportamento futuro degli agenti stradali è un componente critico per una pianificazione sicura nei veicoli autonomi. In questo lavoro, rappresentiamo traiettorie continue come sequenze di token di movimento discreti e formuliamo la previsione del movimento multi-agente come un'attività di modellazione del linguaggio su questo dominio. Il nostro modello, MotionLM, offre diversi vantaggi: in primo luogo, non richiede ancore o un'ottimizzazione esplicita di variabili latenti per apprendere distribuzioni multimodali. Invece, sfruttiamo un unico obiettivo standard di modellazione del linguaggio, massimizzando la probabilità logaritmica media sui token di sequenza. In secondo luogo, il nostro approccio evita euristiche di interazione post-hoc in cui la generazione della traiettoria di singoli agenti viene condotta prima del punteggio interattivo. Al contrario, MotionLM produce distribuzioni congiunte sui futuri interattivi degli agenti in un unico processo di decodifica autoregressiva. Inoltre, la fattorizzazione sequenziale del modello consente rollout condizionali temporalmente causali. L'approccio proposto stabilisce nuove prestazioni all'avanguardia per la previsione del movimento multi-agente sul Waymo Open Motion Dataset, classificandosi al 1° posto nella classifica della sfida interattiva.

English

Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model's sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.

MotionLM: Previsione del Movimento Multi-Agente come Modellazione del Linguaggio

MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Abstract

Support