ChatPaper.aiChatPaper

MC-JEPA: Una Arquitectura Predictiva de Incrustación Conjunta para el Aprendizaje Autosupervisado de Características de Movimiento y Contenido

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

July 24, 2023
Autores: Adrien Bardes, Jean Ponce, Yann LeCun
cs.AI

Resumen

El aprendizaje autosupervisado de representaciones visuales se ha centrado en aprender características de contenido, las cuales no capturan el movimiento o la ubicación de los objetos, sino que se enfocan en identificar y diferenciar objetos en imágenes y videos. Por otro lado, la estimación de flujo óptico es una tarea que no implica comprender el contenido de las imágenes sobre las cuales se estima. Unificamos ambos enfoques y presentamos MC-JEPA, una arquitectura predictiva de incrustación conjunta y un método de aprendizaje autosupervisado para aprender conjuntamente el flujo óptico y las características de contenido dentro de un codificador compartido, demostrando que los dos objetivos asociados; el objetivo de estimación de flujo óptico y el objetivo de aprendizaje autosupervisado; se benefician mutuamente y, por lo tanto, aprenden características de contenido que incorporan información de movimiento. El enfoque propuesto logra un rendimiento comparable con los puntos de referencia existentes de flujo óptico no supervisado, así como con los enfoques comunes de aprendizaje autosupervisado en tareas posteriores, como la segmentación semántica de imágenes y videos.
English
Self-supervised learning of visual representations has been focusing on learning content features, which do not capture object motion or location, and focus on identifying and differentiating objects in images and videos. On the other hand, optical flow estimation is a task that does not involve understanding the content of the images on which it is estimated. We unify the two approaches and introduce MC-JEPA, a joint-embedding predictive architecture and self-supervised learning approach to jointly learn optical flow and content features within a shared encoder, demonstrating that the two associated objectives; the optical flow estimation objective and the self-supervised learning objective; benefit from each other and thus learn content features that incorporate motion information. The proposed approach achieves performance on-par with existing unsupervised optical flow benchmarks, as well as with common self-supervised learning approaches on downstream tasks such as semantic segmentation of images and videos.
PDF70December 15, 2024