STT: Состояний отслеживание с использованием трансформеров для автономного вождения
STT: Stateful Tracking with Transformers for Autonomous Driving
April 30, 2024
Авторы: Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li
cs.AI
Аннотация
Отслеживание объектов в трехмерном пространстве критично для автономного вождения. Для обеспечения безопасности во время движения трекер должен надежно отслеживать объекты на протяжении кадров и точно оценивать их состояния, такие как скорость и ускорение в настоящее время. Существующие работы часто сосредотачиваются на задаче ассоциации, пренебрегая производительность модели по оценке состояния или используя сложные эвристики для прогнозирования состояний. В данной статье мы предлагаем STT, модель отслеживания с состоянием, построенную с использованием трансформеров, которая способна последовательно отслеживать объекты в сценах, а также точно предсказывать их состояния. STT использует богатые сигналы внешнего вида, геометрии и движения через долгосрочную историю обнаружений и совместно оптимизирована как для задачи ассоциации данных, так и для оценки состояния. Поскольку стандартные метрики отслеживания, такие как MOTA и MOTP, не улавливают совместную производительность двух задач в широком спектре состояний объектов, мы расширяем их новыми метриками, называемыми S-MOTA и MOTPS, которые решают эту проблему. STT достигает конкурентоспособной производительности в реальном времени на наборе данных Waymo Open.
English
Tracking objects in three-dimensional space is critical for autonomous
driving. To ensure safety while driving, the tracker must be able to reliably
track objects across frames and accurately estimate their states such as
velocity and acceleration in the present. Existing works frequently focus on
the association task while either neglecting the model performance on state
estimation or deploying complex heuristics to predict the states. In this
paper, we propose STT, a Stateful Tracking model built with Transformers, that
can consistently track objects in the scenes while also predicting their states
accurately. STT consumes rich appearance, geometry, and motion signals through
long term history of detections and is jointly optimized for both data
association and state estimation tasks. Since the standard tracking metrics
like MOTA and MOTP do not capture the combined performance of the two tasks in
the wider spectrum of object states, we extend them with new metrics called
S-MOTA and MOTPS that address this limitation. STT achieves competitive
real-time performance on the Waymo Open Dataset.