MC-JEPA: Un'Architettura Predittiva a Incorporamento Congiunto per l'Apprendimento Autosupervisionato di Caratteristiche di Movimento e Contenuto
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
July 24, 2023
Autori: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI
Abstract
L'apprendimento auto-supervisionato delle rappresentazioni visive si è concentrato principalmente sull'apprendimento di caratteristiche relative al contenuto, che non catturano il movimento o la posizione degli oggetti, e si focalizza sull'identificazione e la differenziazione degli oggetti in immagini e video. D'altra parte, la stima del flusso ottico è un compito che non implica la comprensione del contenuto delle immagini su cui viene stimato. Unifichiamo i due approcci e introduciamo MC-JEPA, un'architettura predittiva a incorporamento congiunto e un metodo di apprendimento auto-supervisionato per apprendere congiuntamente il flusso ottico e le caratteristiche del contenuto all'interno di un codificatore condiviso, dimostrando che i due obiettivi associati; l'obiettivo di stima del flusso ottico e l'obiettivo di apprendimento auto-supervisionato; traggono beneficio reciproco e quindi apprendono caratteristiche del contenuto che incorporano informazioni sul movimento. L'approccio proposto raggiunge prestazioni paragonabili ai benchmark esistenti per il flusso ottico non supervisionato, nonché ai comuni approcci di apprendimento auto-supervisionato su compiti a valle come la segmentazione semantica di immagini e video.
English
Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.