ChatPaper.aiChatPaper

DIP: Unüberwachte dichte In-Kontext-Nachschulung visueller Repräsentationen

DIP: Unsupervised Dense In-Context Post-training of Visual Representations

June 23, 2025
Autoren: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI

Zusammenfassung

Wir stellen DIP vor, eine neuartige unüberwachte Nachtrainingsmethode, die entwickelt wurde, um dichte Bildrepräsentationen in groß angelegten vortrainierten Vision-Encodern für das kontextbezogene Szenenverständnis zu verbessern. Im Gegensatz zu früheren Ansätzen, die auf komplexe Selbst-Distillationsarchitekturen angewiesen sind, trainiert unsere Methode den Vision-Encoder mithilfe von Pseudo-Aufgaben, die explizit nachgelagerte kontextbezogene Szenarien simulieren, inspiriert durch Meta-Lern-Prinzipien. Um das Nachtraining auf unmarkierten Daten zu ermöglichen, schlagen wir einen automatischen Mechanismus zur Generierung von kontextbezogenen Aufgaben vor, der ein vortrainiertes Diffusionsmodell und den Vision-Encoder selbst kombiniert. DIP ist einfach, unüberwacht und recheneffizient, benötigt weniger als 9 Stunden auf einer einzelnen A100-GPU. Durch das Lernen dichter Repräsentationen über Pseudo-kontextbezogene Aufgaben erzielt es eine starke Leistung über eine Vielzahl von nachgelagerten realen kontextbezogenen Szenenverständnisaufgaben. Es übertrifft sowohl den ursprünglichen Vision-Encoder als auch frühere Methoden und bietet eine praktische und effektive Lösung zur Verbesserung dichter Repräsentationen. Code verfügbar hier: https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP
PDF131June 24, 2025