STT: Seguimiento con Estado mediante Transformers para la Conducción Autónoma
STT: Stateful Tracking with Transformers for Autonomous Driving
April 30, 2024
Autores: Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li
cs.AI
Resumen
El seguimiento de objetos en el espacio tridimensional es fundamental para la conducción autónoma. Para garantizar la seguridad al conducir, el sistema de seguimiento debe ser capaz de rastrear objetos de manera confiable a lo largo de los fotogramas y estimar con precisión sus estados, como la velocidad y la aceleración, en el momento presente. Los trabajos existentes suelen centrarse en la tarea de asociación, mientras que descuidan el rendimiento del modelo en la estimación de estados o implementan heurísticas complejas para predecir dichos estados. En este artículo, proponemos STT, un modelo de seguimiento con estado construido con Transformers, que puede rastrear objetos de manera consistente en las escenas y, al mismo tiempo, predecir sus estados con precisión. STT utiliza señales ricas de apariencia, geometría y movimiento a través de un historial a largo plazo de detecciones y está optimizado conjuntamente para las tareas de asociación de datos y estimación de estados. Dado que las métricas estándar de seguimiento, como MOTA y MOTP, no capturan el rendimiento combinado de ambas tareas en el espectro más amplio de estados de los objetos, las extendemos con nuevas métricas llamadas S-MOTA y MOTPS que abordan esta limitación. STT logra un rendimiento competitivo en tiempo real en el conjunto de datos Waymo Open.
English
Tracking objects in three-dimensional space is critical for autonomous
driving. To ensure safety while driving, the tracker must be able to reliably
track objects across frames and accurately estimate their states such as
velocity and acceleration in the present. Existing works frequently focus on
the association task while either neglecting the model performance on state
estimation or deploying complex heuristics to predict the states. In this
paper, we propose STT, a Stateful Tracking model built with Transformers, that
can consistently track objects in the scenes while also predicting their states
accurately. STT consumes rich appearance, geometry, and motion signals through
long term history of detections and is jointly optimized for both data
association and state estimation tasks. Since the standard tracking metrics
like MOTA and MOTP do not capture the combined performance of the two tasks in
the wider spectrum of object states, we extend them with new metrics called
S-MOTA and MOTPS that address this limitation. STT achieves competitive
real-time performance on the Waymo Open Dataset.Summary
AI-Generated Summary