ChatPaper.aiChatPaper

Auf der Suche nach Pixel-Supervision für visuelles Pre-Training

In Pursuit of Pixel Supervision for Visual Pre-training

December 17, 2025
papers.authors: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI

papers.abstract

Auf grundlegendster Ebene sind Pixel die Quelle der visuellen Informationen, durch die wir die Welt wahrnehmen. Pixel enthalten Informationen auf allen Ebenen, von einfachen Attributen bis hin zu komplexen Konzepten. Autoencoder stellen ein klassisches und langjähriges Paradigma zum Erlernen von Repräsentationen aus Pixeln oder anderen Rohdaten dar. In dieser Arbeit zeigen wir, dass selbstüberwachtes Lernen auf Basis von Autoencodern auch heute noch wettbewerbsfähig ist und starke Repräsentationen für nachgelagerte Aufgaben erzeugen kann, dabei jedoch einfach, stabil und effizient bleibt. Unser Modell mit dem Codenamen "Pixio" ist ein verbesserter maskierter Autoencoder (MAE) mit anspruchsvolleren Vortrainingsaufgaben und leistungsfähigeren Architekturen. Das Modell wird auf 2B webgecrawlten Bildern mit einer selbstkuratierten Strategie und minimaler menschlicher Kuratierung trainiert. Pixio schneidet bei einer Vielzahl von nachgelagerten Aufgaben in realen Szenarien wettbewerbsfähig ab, einschließlich monokularer Tiefenschätzung (z.B. Depth Anything), direktem 3D-Rekonstruktionsverfahren (d.h. MapAnything), semantischer Segmentierung und Robotik-Lernen, und übertrifft oder erreicht DINOv3, das in ähnlichem Umfang trainiert wurde. Unsere Ergebnisse deuten darauf hin, dass selbstüberwachtes Lernen im Pixelraum eine vielversprechende Alternative und Ergänzung zu Ansätzen im Latentraum darstellen kann.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
PDF62December 19, 2025