В поисках пиксельного супервизирования для визуального предобучения
In Pursuit of Pixel Supervision for Visual Pre-training
December 17, 2025
Авторы: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI
Аннотация
На самом базовом уровне пиксели являются источником визуальной информации, посредством которой мы воспринимаем мир. Пиксели содержат информацию всех уровней — от низкоуровневых атрибутов до высокоуровневых концепций. Автокодировщики представляют собой классическую и проверенную временем парадигму для обучения представлений из пикселей или других исходных данных. В данной работе мы демонстрируем, что самообучение на основе автокодировщиков остается конкурентоспособным и сегодня, позволяя получать качественные представления для последующих задач, сохраняя при этом простоту, стабильность и эффективность. Наша модель, получившая кодовое название «Pixio», представляет собой усовершенствованный маскированный автокодировщик (MAE) с более сложными задачами предварительного обучения и более мощными архитектурами. Модель обучалась на 2 миллиардах веб-изображений с использованием стратегии самоотбора при минимальном участии человека. Pixio демонстрирует конкурентоспособные результаты в широком спектре практических задач, включая оценку монокулярной глубины (например, Depth Anything), прямое 3D-восстановление (MapAnything), семантическую сегментацию и обучение роботов, превосходя или соответствуя результатам DINOv3, обученной в аналогичных масштабах. Наши результаты позволяют предположить, что самообучение в пространстве пикселей может служить перспективной альтернативой и дополнением к подходам, работающим в латентном пространстве.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.