ChatPaper.aiChatPaper

視覚事前学習におけるピクセル監視の追求

In Pursuit of Pixel Supervision for Visual Pre-training

December 17, 2025
著者: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu
cs.AI

要旨

最も基本的なレベルにおいて、ピクセルは私たちが世界を認識する視覚情報の源泉です。ピクセルは、低次元の属性から高次元の概念に至るまで、あらゆるレベルの情報を含んでいます。オートエンコーダは、ピクセルやその他の生の入力から表現を学習するための古典的かつ長年にわたるパラダイムです。本研究では、オートエンコーダに基づく自己教師あり学習が今日でも競争力を維持し、下流タスクのための強力な表現を生成できる一方で、シンプルで安定性が高く効率的であることを実証します。我々のモデル(コードネーム「Pixio」)は、より挑戦的な事前学習タスクとより高性能なアーキテクチャを備えた、拡張型マスク化オートエンコーダ(MAE)です。このモデルは、人間による選別を最小限に抑えた自己選別戦略を用いて、ウェブクロールにより収集した20億枚の画像で学習されています。Pixioは、単眼深度推定(Depth Anythingなど)、フィードフォワード型3D再構成(MapAnything)、セマンティックセグメンテーション、ロボット学習など、実世界における多様な下流タスクにおいて競争力のある性能を発揮し、同規模で学習されたDINOv3を上回るか、あるいは同等の結果を示します。我々の結果は、ピクセル空間における自己教師あり学習が、潜在空間アプローチの有望な代替手段および補完として機能し得ることを示唆しています。
English
At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
PDF62December 19, 2025