ChatPaper.aiChatPaper

Alla Ricerca della Supervisione per Pixel per il Pre-addestramento Visivo

In Pursuit of Pixel Supervision for Visual Pre-training

December 17, 2025
Autori: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI

Abstract

A livello più elementare, i pixel sono la fonte delle informazioni visive attraverso cui percepiamo il mondo. I pixel contengono informazioni a tutti i livelli, che spaziano da attributi di basso livello a concetti di alto livello. Gli autoencoder rappresentano un paradigma classico e di lunga data per l'apprendimento di rappresentazioni a partire da pixel o altri input grezzi. In questo lavoro, dimostriamo che l'apprendimento auto-supervisionato basato su autoencoder rimane competitivo oggi e può produrre rappresentazioni solide per task a valle, pur rimanendo semplice, stabile ed efficiente. Il nostro modello, denominato in codice "Pixio", è un autoencoder mascherato (MAE) potenziato con task di pre-addestramento più impegnativi e architetture più capaci. Il modello è addestrato su 2 miliardi di immagini raccolte dal web con una strategia di auto-curation che richiede una curatela umana minima. Pixio fornisce prestazioni competitive su un'ampia gamma di task a valle in contesti reali, tra cui stima della profondità monoculare (ad esempio, Depth Anything), ricostruzione 3D feed-forward (ovvero, MapAnything), segmentazione semantica e apprendimento robotico, superando o eguagliando DINOv3 addestrato su scale simili. I nostri risultati suggeriscono che l'apprendimento auto-supervisionato nello spazio dei pixel può rappresentare un'alternativa promettente e un complemento agli approcci nello spazio latente.
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
PDF62December 19, 2025