ChatPaper.aiChatPaper

Tracciamento Amodale di Oggetti Qualsiasi

Tracking Any Object Amodally

December 19, 2023
Autori: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Abstract

La percezione amodale, la capacità di comprendere le strutture complete degli oggetti a partire da una visibilità parziale, è un'abilità fondamentale, persino per i neonati. La sua importanza si estende ad applicazioni come la guida autonoma, dove una chiara comprensione degli oggetti fortemente occlusi è essenziale. Tuttavia, gli algoritmi moderni di rilevamento e tracciamento spesso trascurano questa capacità critica, forse a causa della prevalenza di annotazioni modali nella maggior parte dei dataset. Per affrontare la scarsità di dati amodali, introduciamo il benchmark TAO-Amodal, che presenta 880 categorie diverse in migliaia di sequenze video. Il nostro dataset include bounding box amodali e modali per oggetti visibili e occlusi, compresi oggetti parzialmente fuori dall'inquadratura. Per migliorare il tracciamento amodale con la permanenza degli oggetti, sfruttiamo un modulo plug-in leggero, l'amodal expander, per trasformare i tracker modali standard in tracker amodali attraverso il fine-tuning su poche centinaia di sequenze video con aumento dei dati. Otteniamo un miglioramento del 3,3% e dell'1,6% nel rilevamento e nel tracciamento degli oggetti occlusi su TAO-Amodal. Quando valutato sulle persone, il nostro metodo produce miglioramenti significativi di 2x rispetto ai baseline modali all'avanguardia.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024