MC-JEPA: Uma Arquitetura Preditiva de Incorporação Conjunta para Aprendizado Autossupervisionado de Características de Movimento e Conteúdo
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
July 24, 2023
Autores: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI
Resumo
O aprendizado auto-supervisionado de representações visuais tem se concentrado na aprendizagem de características de conteúdo, que não capturam o movimento ou a localização de objetos, e se concentram em identificar e diferenciar objetos em imagens e vídeos. Por outro lado, a estimativa de fluxo óptico é uma tarefa que não envolve a compreensão do conteúdo das imagens nas quais é estimada. Nós unificamos as duas abordagens e introduzimos o MC-JEPA, uma arquitetura preditiva de incorporação conjunta e uma abordagem de aprendizado auto-supervisionado para aprender conjuntamente o fluxo óptico e as características de conteúdo dentro de um codificador compartilhado, demonstrando que os dois objetivos associados; o objetivo de estimativa de fluxo óptico e o objetivo de aprendizado auto-supervisionado; se beneficiam mutuamente e, assim, aprendem características de conteúdo que incorporam informações de movimento. A abordagem proposta alcança desempenho comparável aos benchmarks existentes de fluxo óptico não supervisionado, bem como às abordagens comuns de aprendizado auto-supervisionado em tarefas subsequentes, como a segmentação semântica de imagens e vídeos.
English
Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.