MC-JEPA: Een Joint-Embedding Predictieve Architectuur voor Zelfsupervised Leren van Bewegings- en Inhoudskenmerken
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
July 24, 2023
Auteurs: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI
Samenvatting
Zelfgesuperviseerd leren van visuele representaties heeft zich gericht op het leren van inhoudskenmerken, die geen objectbeweging of locatie vastleggen, en zich concentreren op het identificeren en differentiëren van objecten in afbeeldingen en video's. Aan de andere kant is optische stroomschatting een taak die niet het begrijpen van de inhoud van de afbeeldingen waarop het wordt geschat, omvat. Wij verenigen de twee benaderingen en introduceren MC-JEPA, een joint-embedding voorspellende architectuur en een zelfgesuperviseerde leerbenadering om gezamenlijk optische stroom en inhoudskenmerken te leren binnen een gedeelde encoder, waarbij we aantonen dat de twee bijbehorende doelstellingen; de doelstelling voor optische stroomschatting en de zelfgesuperviseerde leerdoelstelling; van elkaar profiteren en zo inhoudskenmerken leren die bewegingsinformatie incorporeren. De voorgestelde benadering behaalt prestaties die vergelijkbaar zijn met bestaande ongesuperviseerde benchmarks voor optische stroom, evenals met gangbare zelfgesuperviseerde leerbenaderingen bij downstream taken zoals semantische segmentatie van afbeeldingen en video's.
English
Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.