En Busca de la Supervisión por Píxeles para el Pre-entrenamiento Visual
In Pursuit of Pixel Supervision for Visual Pre-training
December 17, 2025
Autores: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI
Resumen
A nivel más básico, los píxeles son la fuente de la información visual a través de la cual percibimos el mundo. Los píxeles contienen información en todos los niveles, desde atributos de bajo nivel hasta conceptos de alto nivel. Los autocodificadores representan un paradigma clásico y consolidado para aprender representaciones a partir de píxeles u otras entradas en bruto. En este trabajo, demostramos que el aprendizaje auto-supervisado basado en autocodificadores sigue siendo competitivo en la actualidad y puede producir representaciones sólidas para tareas posteriores, manteniéndose simple, estable y eficiente. Nuestro modelo, denominado en clave "Pixio", es un autocodificador enmascarado mejorado (MAE) con tareas de pre-entrenamiento más desafiantes y arquitecturas más capaces. El modelo se entrena con 2.000 millones de imágenes obtenidas de la web mediante una estrategia de autocuración con una intervención humana mínima. Pixio tiene un rendimiento competitivo en una amplia gama de tareas posteriores en entornos reales, incluyendo la estimación de profundidad monocular (por ejemplo, Depth Anything), la reconstrucción 3D de paso directo (es decir, MapAnything), la segmentación semántica y el aprendizaje robótico, superando o igualando a DINOv3 entrenado a escalas similares. Nuestros resultados sugieren que el aprendizaje auto-supervisado en el espacio de píxeles puede servir como una alternativa prometedora y un complemento a los enfoques en el espacio latente.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.