ChatPaper.aiChatPaper

STT: Stateful Tracking met Transformers voor Autonoom Rijden

STT: Stateful Tracking with Transformers for Autonomous Driving

April 30, 2024
Auteurs: Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li
cs.AI

Samenvatting

Het volgen van objecten in driedimensionale ruimte is cruciaal voor autonoom rijden. Om veiligheid tijdens het rijden te garanderen, moet de tracker objecten betrouwbaar kunnen volgen over verschillende frames en hun toestanden, zoals snelheid en versnelling, accuraat kunnen schatten in het heden. Bestaande werken richten zich vaak op de associatietaak, terwijl ze ofwel de modelprestaties op toestandsschatting verwaarlozen, ofwel complexe heuristieken inzetten om de toestanden te voorspellen. In dit artikel stellen we STT voor, een Stateful Tracking-model gebouwd met Transformers, dat objecten in de scènes consistent kan volgen en tegelijkertijd hun toestanden nauwkeurig kan voorspellen. STT verwerkt rijke visuele, geometrische en bewegingssignalen via een langetermijnhistorie van detecties en wordt gezamenlijk geoptimaliseerd voor zowel de data-associatie- als de toestandsschattingstaken. Omdat standaard trackingmetrieken zoals MOTA en MOTP de gecombineerde prestaties van de twee taken in het bredere spectrum van objecttoestanden niet vastleggen, breiden we deze uit met nieuwe metrieken genaamd S-MOTA en MOTPS die deze beperking aanpakken. STT behaalt competitieve real-time prestaties op de Waymo Open Dataset.
English
Tracking objects in three-dimensional space is critical for autonomous driving. To ensure safety while driving, the tracker must be able to reliably track objects across frames and accurately estimate their states such as velocity and acceleration in the present. Existing works frequently focus on the association task while either neglecting the model performance on state estimation or deploying complex heuristics to predict the states. In this paper, we propose STT, a Stateful Tracking model built with Transformers, that can consistently track objects in the scenes while also predicting their states accurately. STT consumes rich appearance, geometry, and motion signals through long term history of detections and is jointly optimized for both data association and state estimation tasks. Since the standard tracking metrics like MOTA and MOTP do not capture the combined performance of the two tasks in the wider spectrum of object states, we extend them with new metrics called S-MOTA and MOTPS that address this limitation. STT achieves competitive real-time performance on the Waymo Open Dataset.
PDF93February 8, 2026