ChatPaper.aiChatPaper

Rastreo Amodal de Cualquier Objeto

Tracking Any Object Amodally

December 19, 2023
Autores: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Resumen

La percepción amodal, la capacidad de comprender estructuras completas de objetos a partir de una visibilidad parcial, es una habilidad fundamental, incluso para los bebés. Su importancia se extiende a aplicaciones como la conducción autónoma, donde es esencial una comprensión clara de objetos fuertemente ocluidos. Sin embargo, los algoritmos modernos de detección y seguimiento a menudo pasan por alto esta capacidad crítica, quizás debido a la prevalencia de anotaciones modales en la mayoría de los conjuntos de datos. Para abordar la escasez de datos amodales, presentamos el benchmark TAO-Amodal, que incluye 880 categorías diversas en miles de secuencias de video. Nuestro conjunto de datos contiene cajas delimitadoras amodales y modales para objetos visibles y ocluidos, incluyendo objetos que están parcialmente fuera del cuadro. Para mejorar el seguimiento amodal con permanencia de objetos, utilizamos un módulo complementario ligero, el expansor amodal, para transformar rastreadores modales estándar en amodales mediante ajuste fino en unos cientos de secuencias de video con aumento de datos. Logramos una mejora del 3.3% y 1.6% en la detección y seguimiento de objetos ocluidos en TAO-Amodal. Al evaluar en personas, nuestro método produce mejoras dramáticas de 2x en comparación con los baselines modales de última generación.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024