Em Busca da Supervisão por Pixels para o Pré-treinamento Visual

Resumo

No nível mais básico, os pixels são a fonte da informação visual através da qual percebemos o mundo. Os pixels contêm informações em todos os níveis, desde atributos de baixo nível até conceitos de alto nível. Os autoencoders representam um paradigma clássico e consolidado para aprender representações a partir de pixels ou outras entradas brutas. Neste trabalho, demonstramos que o aprendizado auto-supervisionado baseado em autoencoders permanece competitivo atualmente e pode produzir representações robustas para tarefas secundárias (downstream tasks), mantendo-se simples, estável e eficiente. Nosso modelo, codinome "Pixio", é um autoencoder mascarado (MAE) aprimorado com tarefas de pré-treinamento mais desafiadoras e arquiteturas mais capazes. O modelo é treinado em 2 bilhões de imagens obtidas da web através de crawlers, utilizando uma estratégia de autocurrição com curadoria humana mínima. O Pixio apresenta desempenho competitivo em uma ampla gama de tarefas secundárias em ambientes reais, incluindo estimativa de profundidade monocul

English

At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.