STT: Zustandsbehaftetes Tracking mit Transformatoren für autonomes Fahren

papers.abstract

Die Verfolgung von Objekten im dreidimensionalen Raum ist entscheidend für das autonome Fahren. Um die Sicherheit beim Fahren zu gewährleisten, muss der Tracker in der Lage sein, Objekte zuverlässig über Frames hinweg zu verfolgen und ihre Zustände wie Geschwindigkeit und Beschleunigung präzise im aktuellen Zustand zu schätzen. Bestehende Arbeiten konzentrieren sich häufig auf die Assoziationsaufgabe, vernachlässigen jedoch entweder die Leistung des Modells bei der Zustandsschätzung oder setzen komplexe Heuristiken ein, um die Zustände vorherzusagen. In diesem Paper schlagen wir STT vor, ein Stateful Tracking-Modell, das mit Transformers aufgebaut ist und Objekte in Szenen konsistent verfolgen kann, während es auch ihre Zustände präzise vorhersagt. STT nutzt reiche Erscheinungsbilder, Geometrie- und Bewegungssignale über die langfristige Historie von Erkennungen und wird gemeinsam für die Aufgaben der Datenassoziation und Zustandsschätzung optimiert. Da die Standard-Tracking-Metriken wie MOTA und MOTP die kombinierte Leistung der beiden Aufgaben im breiteren Spektrum der Objektzustände nicht erfassen, erweitern wir sie um neue Metriken namens S-MOTA und MOTPS, die diese Einschränkung adressieren. STT erzielt eine wettbewerbsfähige Echtzeitleistung auf dem Waymo Open Dataset.

English

Tracking objects in three-dimensional space is critical for autonomous driving. To ensure safety while driving, the tracker must be able to reliably track objects across frames and accurately estimate their states such as velocity and acceleration in the present. Existing works frequently focus on the association task while either neglecting the model performance on state estimation or deploying complex heuristics to predict the states. In this paper, we propose STT, a Stateful Tracking model built with Transformers, that can consistently track objects in the scenes while also predicting their states accurately. STT consumes rich appearance, geometry, and motion signals through long term history of detections and is jointly optimized for both data association and state estimation tasks. Since the standard tracking metrics like MOTA and MOTP do not capture the combined performance of the two tasks in the wider spectrum of object states, we extend them with new metrics called S-MOTA and MOTPS that address this limitation. STT achieves competitive real-time performance on the Waymo Open Dataset.

STT: Zustandsbehaftetes Tracking mit Transformatoren für autonomes Fahren

STT: Stateful Tracking with Transformers for Autonomous Driving

papers.abstract

Support