MC-JEPA: 동작 및 콘텐츠 특징의 자기 지도 학습을 위한 공동 임베딩 예측 아키텍처
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
July 24, 2023
저자: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI
초록
시각 표현의 자기 지도 학습은 주로 객체의 움직임이나 위치를 포착하지 않는 콘텐츠 특징을 학습하는 데 초점을 맞추어 왔으며, 이미지와 비디오에서 객체를 식별하고 구별하는 데 중점을 두었습니다. 반면, 광학 흐름 추정은 추정 대상 이미지의 콘텐츠를 이해하는 작업을 포함하지 않습니다. 우리는 이 두 접근법을 통합하고, 공통 인코더 내에서 광학 흐름과 콘텐츠 특징을 함께 학습하기 위한 공동 임베딩 예측 아키텍처 및 자기 지도 학습 접근법인 MC-JEPA를 소개합니다. 이를 통해 광학 흐름 추정 목표와 자기 지도 학습 목표가 서로에게 이점을 제공하며, 움직임 정보를 포함한 콘텐츠 특징을 학습할 수 있음을 입증합니다. 제안된 접근법은 기존의 비지도 광학 흐름 벤치마크와 이미지 및 비디오의 의미론적 분할과 같은 다운스트림 작업에서 일반적인 자기 지도 학습 접근법과 동등한 성능을 달성합니다.
English
Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.