Rastreamento Amodal de Qualquer Objeto
Tracking Any Object Amodally
December 19, 2023
Autores: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI
Resumo
A percepção amodal, a capacidade de compreender estruturas completas de objetos a partir de visibilidade parcial, é uma habilidade fundamental, mesmo para bebês. Sua importância se estende a aplicações como a condução autônoma, onde um entendimento claro de objetos fortemente ocluídos é essencial. No entanto, os algoritmos modernos de detecção e rastreamento frequentemente negligenciam essa capacidade crítica, talvez devido à prevalência de anotações modais na maioria dos conjuntos de dados. Para abordar a escassez de dados amodais, introduzimos o benchmark TAO-Amodal, que apresenta 880 categorias diversas em milhares de sequências de vídeo. Nosso conjunto de dados inclui caixas delimitadoras amodais e modais para objetos visíveis e ocluídos, incluindo objetos que estão parcialmente fora do quadro. Para aprimorar o rastreamento amodal com permanência de objetos, utilizamos um módulo leve de plug-in, o expansor amodal, para transformar rastreadores modais padrão em amodais por meio de ajuste fino em algumas centenas de sequências de vídeo com aumento de dados. Alcançamos uma melhoria de 3,3% e 1,6% na detecção e rastreamento de objetos ocluídos no TAO-Amodal. Quando avaliado em pessoas, nosso método produz melhorias dramáticas de 2x em comparação com as linhas de base modais state-of-the-art.
English
Amodal perception, the ability to comprehend complete object structures from
partial visibility, is a fundamental skill, even for infants. Its significance
extends to applications like autonomous driving, where a clear understanding of
heavily occluded objects is essential. However, modern detection and tracking
algorithms often overlook this critical capability, perhaps due to the
prevalence of modal annotations in most datasets. To address the scarcity of
amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse
categories in thousands of video sequences. Our dataset includes amodal and
modal bounding boxes for visible and occluded objects, including objects that
are partially out-of-frame. To enhance amodal tracking with object permanence,
we leverage a lightweight plug-in module, the amodal expander, to transform
standard, modal trackers into amodal ones through fine-tuning on a few hundred
video sequences with data augmentation. We achieve a 3.3\% and 1.6\%
improvement on the detection and tracking of occluded objects on TAO-Amodal.
When evaluated on people, our method produces dramatic improvements of 2x
compared to state-of-the-art modal baselines.