MC-JEPA : Une architecture prédictive à plongements conjoints pour l'apprentissage auto-supervisé des caractéristiques de mouvement et de contenu
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
July 24, 2023
Auteurs: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI
Résumé
L'apprentissage auto-supervisé des représentations visuelles s'est principalement concentré sur l'apprentissage de caractéristiques de contenu, qui ne capturent ni le mouvement ni la localisation des objets, et se focalisent sur l'identification et la différenciation des objets dans les images et les vidéos. D'autre part, l'estimation du flux optique est une tâche qui n'implique pas la compréhension du contenu des images sur lesquelles elle est estimée. Nous unifions ces deux approches et introduisons MC-JEPA, une architecture prédictive à plongements conjoints et une méthode d'apprentissage auto-supervisé pour apprendre conjointement le flux optique et les caractéristiques de contenu au sein d'un encodeur partagé, démontrant que les deux objectifs associés ; l'objectif d'estimation du flux optique et l'objectif d'apprentissage auto-supervisé ; bénéficient l'un de l'autre et permettent ainsi d'apprendre des caractéristiques de contenu intégrant des informations de mouvement. L'approche proposée atteint des performances comparables aux benchmarks existants de flux optique non supervisé, ainsi qu'aux méthodes courantes d'apprentissage auto-supervisé sur des tâches en aval telles que la segmentation sémantique d'images et de vidéos.
English
Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.