ChatPaper.aiChatPaper

Отслеживание любого объекта амодально

Tracking Any Object Amodally

December 19, 2023
Авторы: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
cs.AI

Аннотация

Амодальное восприятие — способность понимать полную структуру объектов при их частичной видимости — является фундаментальным навыком, даже для младенцев. Его значимость распространяется на такие приложения, как автономное вождение, где критически важно четкое понимание сильно загороженных объектов. Однако современные алгоритмы обнаружения и отслеживания часто упускают эту важную способность, возможно, из-за преобладания модальных аннотаций в большинстве наборов данных. Чтобы решить проблему нехватки амодальных данных, мы представляем эталонный набор TAO-Amodal, включающий 880 разнообразных категорий в тысячах видеопоследовательностей. Наш набор данных содержит амодальные и модальные ограничивающие рамки для видимых и загороженных объектов, включая объекты, частично выходящие за пределы кадра. Для улучшения амодального отслеживания с учетом постоянства объектов мы используем легковесный модуль — амодальный расширитель, который преобразует стандартные модальные трекеры в амодальные путем тонкой настройки на нескольких сотнях видеопоследовательностей с применением аугментации данных. Мы достигаем улучшения на 3,3% и 1,6% в обнаружении и отслеживании загороженных объектов на TAO-Amodal. При оценке на людях наш метод демонстрирует значительное улучшение в 2 раза по сравнению с современными модальными базовыми методами.
English
Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
PDF121December 15, 2024