DIP: 視覚表現の教師なし高密度インコンテクスト事後学習
DIP: Unsupervised Dense In-Context Post-training of Visual Representations
June 23, 2025
著者: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI
要旨
本論文では、大規模事前学習済み視覚エンコーダにおける密な画像表現を強化し、文脈内シーン理解を向上させるための新しい教師なしポストトレーニング手法であるDIPを提案する。従来の複雑な自己蒸留アーキテクチャに依存する手法とは異なり、本手法はメタ学習の原理に基づき、下流の文脈内シナリオを明示的に模倣する疑似タスクを用いて視覚エンコーダを訓練する。ラベルなしデータに対するポストトレーニングを可能にするため、事前学習済み拡散モデルと視覚エンコーダ自体を組み合わせた文脈内タスク生成の自動メカニズムを提案する。DIPはシンプルで教師なし、かつ計算効率が高く、単一のA100 GPUで9時間未満の計算時間を要する。疑似文脈内タスクを通じて密な表現を学習することで、多様な下流の実世界文脈内シーン理解タスクにおいて優れた性能を発揮する。初期の視覚エンコーダや従来手法を上回り、密な表現を改善するための実用的かつ効果的なソリューションを提供する。コードは以下で公開されている: https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to
enhance dense image representations in large-scale pretrained vision encoders
for in-context scene understanding. Unlike prior approaches that rely on
complex self-distillation architectures, our method trains the vision encoder
using pseudo-tasks that explicitly simulate downstream in-context scenarios,
inspired by meta-learning principles. To enable post-training on unlabeled
data, we propose an automatic mechanism for generating in-context tasks that
combines a pretrained diffusion model and the vision encoder itself. DIP is
simple, unsupervised, and computationally efficient, requiring less than 9
hours on a single A100 GPU. By learning dense representations through pseudo
in-context tasks, it achieves strong performance across a wide variety of
downstream real-world in-context scene understanding tasks. It outperforms both
the initial vision encoder and prior methods, offering a practical and
effective solution for improving dense representations. Code available here:
https://github.com/sirkosophia/DIP