ChatPaper.aiChatPaper

Suivi Amodal de Tout Objet

Tracking Any Object Amodally

December 19, 2023
Auteurs: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Résumé

La perception amodale, la capacité à comprendre les structures complètes des objets à partir d'une visibilité partielle, est une compétence fondamentale, même pour les nourrissons. Son importance s'étend à des applications comme la conduite autonome, où une compréhension claire des objets fortement occultés est essentielle. Cependant, les algorithmes modernes de détection et de suivi négligent souvent cette capacité critique, peut-être en raison de la prévalence des annotations modales dans la plupart des ensembles de données. Pour remédier à la rareté des données amodales, nous introduisons le benchmark TAO-Amodal, comprenant 880 catégories diverses dans des milliers de séquences vidéo. Notre ensemble de données inclut des boîtes englobantes amodales et modales pour les objets visibles et occultés, y compris les objets partiellement hors cadre. Pour améliorer le suivi amodal avec la permanence des objets, nous utilisons un module léger, l'expansif amodal, pour transformer les trackers modaux standards en trackers amodaux par fine-tuning sur quelques centaines de séquences vidéo avec augmentation des données. Nous obtenons une amélioration de 3,3 % et 1,6 % dans la détection et le suivi des objets occultés sur TAO-Amodal. Lorsqu'elle est évaluée sur des personnes, notre méthode produit des améliorations spectaculaires de 2x par rapport aux bases modales de pointe.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024