ChatPaper.aiChatPaper

Op Zoek naar Pixel-supervisie voor Visuele Pre-training

In Pursuit of Pixel Supervision for Visual Pre-training

December 17, 2025
Auteurs: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI

Samenvatting

Op het meest fundamentele niveau zijn pixels de bron van de visuele informatie waarmee we de wereld waarnemen. Pixels bevatten informatie op alle niveaus, van laag-niveau attributen tot hoog-niveau concepten. Auto-encoders vormen een klassiek en al lang bestaand paradigma voor het leren van representaties vanuit pixels of andere ruwe invoer. In dit werk tonen we aan dat zelfgesuperviseerd leren op basis van auto-encoders ook vandaag competitief blijft en sterke representaties kan produceren voor downstreamtaken, terwijl het eenvoudig, stabiel en efficiënt blijft. Ons model, met de codenaam "Pixio", is een verbeterde gemaskeerde auto-encoder (MAE) met uitdagendere pre-trainingtaken en krachtigere architecturen. Het model wordt getraind op 2B web-gespiderde afbeeldingen met een zelf-curatiestrategie met minimale menselijke curatie. Pixio presteert competitief op een breed scala aan downstreamtaken in de praktijk, waaronder monocular depth estimation (bijvoorbeeld Depth Anything), feed-forward 3D-reconstructie (MapAnything), semantische segmentatie en robotleren, en overtreft of evenaart DINOv3 dat op vergelijkbare schaal is getraind. Onze resultaten suggereren dat zelfgesuperviseerd leren in de pixelruimte een veelbelovend alternatief en een aanvulling kan zijn op benaderingen in de latente ruimte.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
PDF62December 19, 2025