STT : Suivi avec état utilisant des Transformers pour la conduite autonome

papers.abstract

Le suivi d'objets dans un espace tridimensionnel est essentiel pour la conduite autonome. Pour garantir la sécurité pendant la conduite, le système de suivi doit être capable de suivre de manière fiable les objets d'une image à l'autre et d'estimer avec précision leurs états, tels que la vitesse et l'accélération, dans le présent. Les travaux existants se concentrent souvent sur la tâche d'association tout en négligeant les performances du modèle sur l'estimation des états ou en déployant des heuristiques complexes pour prédire ces états. Dans cet article, nous proposons STT, un modèle de suivi avec état construit à l'aide de Transformers, qui peut suivre de manière cohérente les objets dans les scènes tout en prédisant également leurs états avec précision. STT intègre des signaux riches d'apparence, de géométrie et de mouvement grâce à l'historique à long terme des détections et est optimisé conjointement pour les tâches d'association de données et d'estimation des états. Étant donné que les métriques de suivi standard comme MOTA et MOTP ne capturent pas la performance combinée des deux tâches dans le spectre plus large des états des objets, nous les étendons avec de nouvelles métriques appelées S-MOTA et MOTPS qui pallient cette limitation. STT atteint des performances compétitives en temps réel sur le jeu de données Waymo Open.

English

Tracking objects in three-dimensional space is critical for autonomous driving. To ensure safety while driving, the tracker must be able to reliably track objects across frames and accurately estimate their states such as velocity and acceleration in the present. Existing works frequently focus on the association task while either neglecting the model performance on state estimation or deploying complex heuristics to predict the states. In this paper, we propose STT, a Stateful Tracking model built with Transformers, that can consistently track objects in the scenes while also predicting their states accurately. STT consumes rich appearance, geometry, and motion signals through long term history of detections and is jointly optimized for both data association and state estimation tasks. Since the standard tracking metrics like MOTA and MOTP do not capture the combined performance of the two tasks in the wider spectrum of object states, we extend them with new metrics called S-MOTA and MOTPS that address this limitation. STT achieves competitive real-time performance on the Waymo Open Dataset.

STT : Suivi avec état utilisant des Transformers pour la conduite autonome

STT: Stateful Tracking with Transformers for Autonomous Driving

papers.abstract

Support