STT : Suivi avec état utilisant des Transformers pour la conduite autonome
STT: Stateful Tracking with Transformers for Autonomous Driving
April 30, 2024
Auteurs: Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li
cs.AI
Résumé
Le suivi d'objets dans un espace tridimensionnel est essentiel pour la conduite autonome. Pour garantir la sécurité pendant la conduite, le système de suivi doit être capable de suivre de manière fiable les objets d'une image à l'autre et d'estimer avec précision leurs états, tels que la vitesse et l'accélération, dans le présent. Les travaux existants se concentrent souvent sur la tâche d'association tout en négligeant les performances du modèle sur l'estimation des états ou en déployant des heuristiques complexes pour prédire ces états. Dans cet article, nous proposons STT, un modèle de suivi avec état construit à l'aide de Transformers, qui peut suivre de manière cohérente les objets dans les scènes tout en prédisant également leurs états avec précision. STT intègre des signaux riches d'apparence, de géométrie et de mouvement grâce à l'historique à long terme des détections et est optimisé conjointement pour les tâches d'association de données et d'estimation des états. Étant donné que les métriques de suivi standard comme MOTA et MOTP ne capturent pas la performance combinée des deux tâches dans le spectre plus large des états des objets, nous les étendons avec de nouvelles métriques appelées S-MOTA et MOTPS qui pallient cette limitation. STT atteint des performances compétitives en temps réel sur le jeu de données Waymo Open.
English
Tracking objects in three-dimensional space is critical for autonomous
driving. To ensure safety while driving, the tracker must be able to reliably
track objects across frames and accurately estimate their states such as
velocity and acceleration in the present. Existing works frequently focus on
the association task while either neglecting the model performance on state
estimation or deploying complex heuristics to predict the states. In this
paper, we propose STT, a Stateful Tracking model built with Transformers, that
can consistently track objects in the scenes while also predicting their states
accurately. STT consumes rich appearance, geometry, and motion signals through
long term history of detections and is jointly optimized for both data
association and state estimation tasks. Since the standard tracking metrics
like MOTA and MOTP do not capture the combined performance of the two tasks in
the wider spectrum of object states, we extend them with new metrics called
S-MOTA and MOTPS that address this limitation. STT achieves competitive
real-time performance on the Waymo Open Dataset.Summary
AI-Generated Summary