DIP: Entrenamiento Posterior No Supervisado de Representaciones Visuales en Contexto Denso

Resumen

Presentamos DIP, un novedoso método no supervisado de post-entrenamiento diseñado para mejorar las representaciones densas de imágenes en codificadores de visión preentrenados a gran escala para la comprensión de escenas en contexto. A diferencia de enfoques previos que dependen de arquitecturas complejas de auto-distilación, nuestro método entrena el codificador de visión utilizando pseudo-tareas que simulan explícitamente escenarios en contexto posteriores, inspirados en principios de meta-aprendizaje. Para permitir el post-entrenamiento con datos no etiquetados, proponemos un mecanismo automático para generar tareas en contexto que combina un modelo de difusión preentrenado y el propio codificador de visión. DIP es simple, no supervisado y computacionalmente eficiente, requiriendo menos de 9 horas en una sola GPU A100. Al aprender representaciones densas a través de pseudo-tareas en contexto, logra un rendimiento sólido en una amplia variedad de tareas posteriores de comprensión de escenas en contexto del mundo real. Supera tanto al codificador de visión inicial como a métodos previos, ofreciendo una solución práctica y efectiva para mejorar las representaciones densas. Código disponible aquí: https://github.com/sirkosophia/DIP.

English

We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP

DIP: Entrenamiento Posterior No Supervisado de Representaciones Visuales en Contexto Denso

DIP: Unsupervised Dense In-Context Post-training of Visual Representations

Resumen

Support