ChatPaper.aiChatPaper

Het Amodaal Volgen van Elk Object

Tracking Any Object Amodally

December 19, 2023
Auteurs: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Samenvatting

Amodale perceptie, het vermogen om complete objectstructuren te begrijpen vanuit gedeeltelijke zichtbaarheid, is een fundamentele vaardigheid, zelfs voor baby's. Het belang ervan strekt zich uit tot toepassingen zoals autonoom rijden, waar een duidelijk begrip van sterk afgeschermde objecten essentieel is. Moderne detectie- en trackingalgoritmen negeren echter vaak deze cruciale capaciteit, mogelijk vanwege de prevalentie van modale annotaties in de meeste datasets. Om het gebrek aan amodale data aan te pakken, introduceren we de TAO-Amodal benchmark, met 880 diverse categorieën in duizenden videosequenties. Onze dataset bevat amodale en modale begrenzingsvakken voor zichtbare en afgeschermde objecten, inclusief objecten die gedeeltelijk buiten beeld zijn. Om amodale tracking met objectpermanentie te verbeteren, maken we gebruik van een lichtgewicht plug-in module, de amodale expander, om standaard modale trackers om te zetten in amodale trackers door fine-tuning op enkele honderden videosequenties met data-augmentatie. We behalen een verbetering van 3,3% en 1,6% in de detectie en tracking van afgeschermde objecten op TAO-Amodal. Bij evaluatie op mensen produceert onze methode dramatische verbeteringen van 2x in vergelijking met state-of-the-art modale basislijnen.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024