Verfolgung beliebiger Objekte amodal
Tracking Any Object Amodally
December 19, 2023
Autoren: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI
Zusammenfassung
Amodale Wahrnehmung, die Fähigkeit, vollständige Objektstrukturen aus teilweiser Sichtbarkeit zu erfassen, ist eine grundlegende Fertigkeit, selbst für Säuglinge. Ihre Bedeutung erstreckt sich auf Anwendungen wie das autonome Fahren, wo ein klares Verständnis stark verdeckter Objekte entscheidend ist. Moderne Erkennungs- und Tracking-Algorithmen übersehen jedoch oft diese kritische Fähigkeit, möglicherweise aufgrund der Verbreitung modaler Annotationen in den meisten Datensätzen. Um den Mangel an amodalen Daten zu beheben, führen wir den TAO-Amodal-Benchmark ein, der 880 verschiedene Kategorien in Tausenden von Videosequenzen umfasst. Unser Datensatz enthält amodale und modale Begrenzungsrahmen für sichtbare und verdeckte Objekte, einschließlich Objekte, die teilweise außerhalb des Bildes liegen. Um das amodale Tracking mit Objektpermanenz zu verbessern, nutzen wir ein leichtgewichtiges Plug-in-Modul, den amodalen Expander, um standardmäßige modale Tracker durch Feinabstimmung auf einigen hundert Videosequenzen mit Datenanreicherung in amodale Tracker zu transformieren. Wir erzielen eine Verbesserung von 3,3 % und 1,6 % bei der Erkennung und Verfolgung verdeckter Objekte auf TAO-Amodal. Bei der Auswertung auf Personen erzielt unsere Methode dramatische Verbesserungen von 2x im Vergleich zu modernen modalen Baselines.
English
Amodal perception, the ability to comprehend complete object structures from
partial visibility, is a fundamental skill, even for infants. Its significance
extends to applications like autonomous driving, where a clear understanding of
heavily occluded objects is essential. However, modern detection and tracking
algorithms often overlook this critical capability, perhaps due to the
prevalence of modal annotations in most datasets. To address the scarcity of
amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse
categories in thousands of video sequences. Our dataset includes amodal and
modal bounding boxes for visible and occluded objects, including objects that
are partially out-of-frame. To enhance amodal tracking with object permanence,
we leverage a lightweight plug-in module, the amodal expander, to transform
standard, modal trackers into amodal ones through fine-tuning on a few hundred
video sequences with data augmentation. We achieve a 3.3\% and 1.6\%
improvement on the detection and tracking of occluded objects on TAO-Amodal.
When evaluated on people, our method produces dramatic improvements of 2x
compared to state-of-the-art modal baselines.