DIP: Addestramento Postumo Non Supervisionato Denso In-Contesto delle Rappresentazioni Visive
DIP: Unsupervised Dense In-Context Post-training of Visual Representations
June 23, 2025
Autori: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI
Abstract
Introduciamo DIP, un nuovo metodo non supervisionato di post-addestramento progettato per migliorare le rappresentazioni dense delle immagini nei codificatori visivi pre-addestrati su larga scala per la comprensione contestuale delle scene. A differenza degli approcci precedenti che si basano su architetture complesse di auto-distillazione, il nostro metodo addestra il codificatore visivo utilizzando pseudo-task che simulano esplicitamente scenari contestuali downstream, ispirati ai principi del meta-apprendimento. Per consentire il post-addestramento su dati non etichettati, proponiamo un meccanismo automatico per generare task contestuali che combina un modello di diffusione pre-addestrato e il codificatore visivo stesso. DIP è semplice, non supervisionato e computazionalmente efficiente, richiedendo meno di 9 ore su una singola GPU A100. Apprendendo rappresentazioni dense attraverso pseudo-task contestuali, ottiene prestazioni solide in un'ampia varietà di task reali di comprensione contestuale delle scene downstream. Supera sia il codificatore visivo iniziale che i metodi precedenti, offrendo una soluzione pratica ed efficace per migliorare le rappresentazioni dense. Codice disponibile qui: https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to
enhance dense image representations in large-scale pretrained vision encoders
for in-context scene understanding. Unlike prior approaches that rely on
complex self-distillation architectures, our method trains the vision encoder
using pseudo-tasks that explicitly simulate downstream in-context scenarios,
inspired by meta-learning principles. To enable post-training on unlabeled
data, we propose an automatic mechanism for generating in-context tasks that
combines a pretrained diffusion model and the vision encoder itself. DIP is
simple, unsupervised, and computationally efficient, requiring less than 9
hours on a single A100 GPU. By learning dense representations through pseudo
in-context tasks, it achieves strong performance across a wide variety of
downstream real-world in-context scene understanding tasks. It outperforms both
the initial vision encoder and prior methods, offering a practical and
effective solution for improving dense representations. Code available here:
https://github.com/sirkosophia/DIP