MC-JEPA: Eine Joint-Embedding-Prädiktionsarchitektur für das selbstüberwachte Lernen von Bewegungs- und Inhaltsmerkmalen

papers.abstract

Das selbstüberwachte Lernen visueller Repräsentationen konzentrierte sich bisher auf das Erlernen von Inhaltsmerkmalen, die weder Objektbewegungen noch -positionen erfassen, sondern darauf abzielen, Objekte in Bildern und Videos zu identifizieren und zu unterscheiden. Auf der anderen Seite ist die Schätzung des optischen Flusses eine Aufgabe, die kein Verständnis des Bildinhalts erfordert, auf dem sie geschätzt wird. Wir vereinen diese beiden Ansätze und stellen MC-JEPA vor, eine Joint-Embedding-Vorhersagearchitektur und einen selbstüberwachten Lernansatz, um optischen Fluss und Inhaltsmerkmale gemeinsam innerhalb eines gemeinsamen Encoders zu lernen. Wir zeigen, dass die beiden zugehörigen Ziele – das Ziel der optischen Flussschätzung und das Ziel des selbstüberwachten Lernens – voneinander profitieren und somit Inhaltsmerkmale erlernen, die Bewegungsinformationen integrieren. Der vorgeschlagene Ansatz erreicht eine Leistung, die mit bestehenden unüberwachten Benchmarks für optischen Fluss sowie mit gängigen selbstüberwachten Lernansätzen bei nachgelagerten Aufgaben wie der semantischen Segmentierung von Bildern und Videos vergleichbar ist.

English

Self-supervised learning of visual representations has been focusing on learning content features, which do not capture object motion or location, and focus on identifying and differentiating objects in images and videos. On the other hand, optical flow estimation is a task that does not involve understanding the content of the images on which it is estimated. We unify the two approaches and introduce MC-JEPA, a joint-embedding predictive architecture and self-supervised learning approach to jointly learn optical flow and content features within a shared encoder, demonstrating that the two associated objectives; the optical flow estimation objective and the self-supervised learning objective; benefit from each other and thus learn content features that incorporate motion information. The proposed approach achieves performance on-par with existing unsupervised optical flow benchmarks, as well as with common self-supervised learning approaches on downstream tasks such as semantic segmentation of images and videos.

MC-JEPA: Eine Joint-Embedding-Prädiktionsarchitektur für das selbstüberwachte Lernen von Bewegungs- und Inhaltsmerkmalen

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

papers.abstract

Support