DIP: Entrenamiento Posterior No Supervisado de Representaciones Visuales en Contexto Denso
DIP: Unsupervised Dense In-Context Post-training of Visual Representations
June 23, 2025
Autores: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI
Resumen
Presentamos DIP, un novedoso método no supervisado de post-entrenamiento diseñado para mejorar las representaciones densas de imágenes en codificadores de visión preentrenados a gran escala para la comprensión de escenas en contexto. A diferencia de enfoques previos que dependen de arquitecturas complejas de auto-distilación, nuestro método entrena el codificador de visión utilizando pseudo-tareas que simulan explícitamente escenarios en contexto posteriores, inspirados en principios de meta-aprendizaje. Para permitir el post-entrenamiento con datos no etiquetados, proponemos un mecanismo automático para generar tareas en contexto que combina un modelo de difusión preentrenado y el propio codificador de visión. DIP es simple, no supervisado y computacionalmente eficiente, requiriendo menos de 9 horas en una sola GPU A100. Al aprender representaciones densas a través de pseudo-tareas en contexto, logra un rendimiento sólido en una amplia variedad de tareas posteriores de comprensión de escenas en contexto del mundo real. Supera tanto al codificador de visión inicial como a métodos previos, ofreciendo una solución práctica y efectiva para mejorar las representaciones densas. Código disponible aquí: https://github.com/sirkosophia/DIP.
English
We introduce DIP, a novel unsupervised post-training method designed to
enhance dense image representations in large-scale pretrained vision encoders
for in-context scene understanding. Unlike prior approaches that rely on
complex self-distillation architectures, our method trains the vision encoder
using pseudo-tasks that explicitly simulate downstream in-context scenarios,
inspired by meta-learning principles. To enable post-training on unlabeled
data, we propose an automatic mechanism for generating in-context tasks that
combines a pretrained diffusion model and the vision encoder itself. DIP is
simple, unsupervised, and computationally efficient, requiring less than 9
hours on a single A100 GPU. By learning dense representations through pseudo
in-context tasks, it achieves strong performance across a wide variety of
downstream real-world in-context scene understanding tasks. It outperforms both
the initial vision encoder and prior methods, offering a practical and
effective solution for improving dense representations. Code available here:
https://github.com/sirkosophia/DIP