ChatPaper.aiChatPaper

À la recherche de la supervision par pixels pour le pré-entraînement visuel

In Pursuit of Pixel Supervision for Visual Pre-training

December 17, 2025
papers.authors: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI

papers.abstract

Au niveau le plus fondamental, les pixels constituent la source de l'information visuelle par laquelle nous percevons le monde. Les pixels contiennent des informations à tous les niveaux, allant des attributs de bas niveau aux concepts de haut niveau. Les autoencodeurs représentent un paradigme classique et de longue date pour l'apprentissage de représentations à partir de pixels ou d'autres entrées brutes. Dans ce travail, nous démontrons que l'apprentissage auto-supervisé basé sur les autoencodeurs reste compétitif aujourd'hui et peut produire des représentations solides pour des tâches en aval, tout en restant simple, stable et efficace. Notre modèle, nommé de code « Pixio », est un autoencodeur masqué amélioré (MAE) doté de tâches de pré-entraînement plus exigeantes et d'architectures plus performantes. Le modèle est entraîné sur 2 milliards d'images collectées sur le web avec une stratégie d'auto-curation nécessitant une curation humaine minimale. Pixio affiche des performances compétitives sur un large éventail de tâches en aval en conditions réelles, incluant l'estimation de profondeur monoculaire (par exemple, Depth Anything), la reconstruction 3D par propagation avant (c'est-à-dire, MapAnything), la segmentation sémantique et l'apprentissage par robot, surpassant ou égalant DINOv3 entraîné à des échelles similaires. Nos résultats suggèrent que l'apprentissage auto-supervisé dans l'espace pixel peut constituer une alternative prometteuse et un complément aux approches dans l'espace latent.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
PDF62December 19, 2025