시각적 사전 학습을 위한 픽셀 수준 지도 학습의 추구
In Pursuit of Pixel Supervision for Visual Pre-training
December 17, 2025
저자: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI
초록
가장 기본적인 수준에서 픽셀은 우리가 세계를 인지하는 시각 정보의 원천입니다. 픽셀에는 저수준 속성부터 고수준 개념에 이르기까지 모든 수준의 정보가 포함되어 있습니다. 오토인코더는 픽셀이나 다른 원시 입력으로부터 표현을 학습하는 고전적이면서도 오랜 패러다임을 대표합니다. 본 연구에서는 오토인코더 기반 자기지도 학습이 여전히 현시점에서 경쟁력을 유지하며, 간단하고 안정적이며 효율적인 동시에 다운스트림 작업에 강력한 표현을 생성할 수 있음을 입증합니다. "Pixio"라는 코드명을 가진 우리 모델은 더 어려운 사전 학습 작업과 더 우수한 아키텍처를 갖춘 향상된 마스크드 오토인코더(MAE)입니다. 이 모델은 최소한의 인간 개입으로 자체 선별 전략을 적용하여 웹에서 크롤링한 20억 장의 이미지로 학습되었습니다. Pixio는 단안 깊이 추정(예: Depth Anything), 피드포워드 3D 재구성(MapAnything), 의미론적 분할, 로봇 학습 등 실제 다양한 다운스트림 작업에서 경쟁력 있는 성능을 보이며, 유사한 규모로 학습된 DINOv3를 능가하거나 동등한 성과를 냅니다. 우리의 결과는 픽셀 공간 자기지도 학습이 잠재 공간 접근법에 대한 유망한 대안이자 보완책이 될 수 있음을 시사합니다.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.