DIP : Post-formation dense non supervisée en contexte des représentations visuelles
DIP: Unsupervised Dense In-Context Post-training of Visual Representations
June 23, 2025
Auteurs: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI
Résumé
Nous présentons DIP, une nouvelle méthode non supervisée de post-entraînement conçue pour améliorer les représentations denses d'images dans les encodeurs de vision pré-entraînés à grande échelle pour la compréhension contextuelle de scènes. Contrairement aux approches antérieures qui reposent sur des architectures complexes d'auto-distillation, notre méthode entraîne l'encodeur de vision en utilisant des pseudo-tâches qui simulent explicitement des scénarios contextuels en aval, inspirés par les principes du méta-apprentissage. Pour permettre un post-entraînement sur des données non étiquetées, nous proposons un mécanisme automatique de génération de tâches contextuelles qui combine un modèle de diffusion pré-entraîné et l'encodeur de vision lui-même. DIP est simple, non supervisé et efficace sur le plan computationnel, nécessitant moins de 9 heures sur un seul GPU A100. En apprenant des représentations denses à travers des pseudo-tâches contextuelles, il obtient de solides performances sur une grande variété de tâches contextuelles de compréhension de scènes en aval dans le monde réel. Il surpasse à la fois l'encodeur de vision initial et les méthodes antérieures, offrant une solution pratique et efficace pour améliorer les représentations denses. Le code est disponible ici : https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to
enhance dense image representations in large-scale pretrained vision encoders
for in-context scene understanding. Unlike prior approaches that rely on
complex self-distillation architectures, our method trains the vision encoder
using pseudo-tasks that explicitly simulate downstream in-context scenarios,
inspired by meta-learning principles. To enable post-training on unlabeled
data, we propose an automatic mechanism for generating in-context tasks that
combines a pretrained diffusion model and the vision encoder itself. DIP is
simple, unsupervised, and computationally efficient, requiring less than 9
hours on a single A100 GPU. By learning dense representations through pseudo
in-context tasks, it achieves strong performance across a wide variety of
downstream real-world in-context scene understanding tasks. It outperforms both
the initial vision encoder and prior methods, offering a practical and
effective solution for improving dense representations. Code available here:
https://github.com/sirkosophia/DIP