ChatPaper.aiChatPaper

MC-JEPA: Совместная архитектура прогнозирования с общим пространством представлений для самообучения признакам движения и содержания

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

July 24, 2023
Авторы: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI

Аннотация

Самообучение визуальных представлений традиционно сосредоточено на изучении признаков содержания, которые не учитывают движение или местоположение объектов, а направлены на идентификацию и различение объектов в изображениях и видео. С другой стороны, задача оценки оптического потока не требует понимания содержания изображений, на которых она выполняется. Мы объединяем эти два подхода и представляем MC-JEPA — архитектуру совместного предсказания вложений и метод самообучения, который позволяет совместно изучать оптический поток и признаки содержания с использованием общего кодировщика. Мы демонстрируем, что две связанные задачи — цель оценки оптического потока и цель самообучения — взаимно обогащают друг друга, что приводит к изучению признаков содержания, включающих информацию о движении. Предложенный подход демонстрирует результаты, сопоставимые с существующими методами оценки оптического потока без учителя, а также с распространенными подходами самообучения на задачах последующего анализа, таких как семантическая сегментация изображений и видео.
English
Self-supervised learning of visual representations has been focusing on learning content features, which do not capture object motion or location, and focus on identifying and differentiating objects in images and videos. On the other hand, optical flow estimation is a task that does not involve understanding the content of the images on which it is estimated. We unify the two approaches and introduce MC-JEPA, a joint-embedding predictive architecture and self-supervised learning approach to jointly learn optical flow and content features within a shared encoder, demonstrating that the two associated objectives; the optical flow estimation objective and the self-supervised learning objective; benefit from each other and thus learn content features that incorporate motion information. The proposed approach achieves performance on-par with existing unsupervised optical flow benchmarks, as well as with common self-supervised learning approaches on downstream tasks such as semantic segmentation of images and videos.
PDF70December 15, 2024