ChatPaper.aiChatPaper

Verfolgung beliebiger Objekte amodal

Tracking Any Object Amodally

December 19, 2023
Autoren: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Zusammenfassung

Amodale Wahrnehmung, die Fähigkeit, vollständige Objektstrukturen aus teilweiser Sichtbarkeit zu erfassen, ist eine grundlegende Fertigkeit, selbst für Säuglinge. Ihre Bedeutung erstreckt sich auf Anwendungen wie das autonome Fahren, wo ein klares Verständnis stark verdeckter Objekte entscheidend ist. Moderne Erkennungs- und Tracking-Algorithmen übersehen jedoch oft diese kritische Fähigkeit, möglicherweise aufgrund der Verbreitung modaler Annotationen in den meisten Datensätzen. Um den Mangel an amodalen Daten zu beheben, führen wir den TAO-Amodal-Benchmark ein, der 880 verschiedene Kategorien in Tausenden von Videosequenzen umfasst. Unser Datensatz enthält amodale und modale Begrenzungsrahmen für sichtbare und verdeckte Objekte, einschließlich Objekte, die teilweise außerhalb des Bildes liegen. Um das amodale Tracking mit Objektpermanenz zu verbessern, nutzen wir ein leichtgewichtiges Plug-in-Modul, den amodalen Expander, um standardmäßige modale Tracker durch Feinabstimmung auf einigen hundert Videosequenzen mit Datenanreicherung in amodale Tracker zu transformieren. Wir erzielen eine Verbesserung von 3,3 % und 1,6 % bei der Erkennung und Verfolgung verdeckter Objekte auf TAO-Amodal. Bei der Auswertung auf Personen erzielt unsere Methode dramatische Verbesserungen von 2x im Vergleich zu modernen modalen Baselines.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024