ChatPaper.aiChatPaper

DIP: Onbegeleide Dichte In-Context Na-training van Visuele Representaties

DIP: Unsupervised Dense In-Context Post-training of Visual Representations

June 23, 2025
Auteurs: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI

Samenvatting

We introduceren DIP, een nieuwe onbewaakte post-trainingsmethode die is ontworpen om dichte beeldrepresentaties in grootschalige voorgetrainde visuele encoders te verbeteren voor in-context scènebegrip. In tegenstelling tot eerdere benaderingen die vertrouwen op complexe zelfdistillatie-architecturen, traint onze methode de visuele encoder met behulp van pseudo-taken die expliciet downstream in-context scenario's simuleren, geïnspireerd door meta-leerprincipes. Om post-training op ongelabelde data mogelijk te maken, stellen we een automatisch mechanisme voor voor het genereren van in-context taken dat een voorgetraind diffusiemodel en de visuele encoder zelf combineert. DIP is eenvoudig, onbewaakt en computationeel efficiënt, en vereist minder dan 9 uur op een enkele A100 GPU. Door dichte representaties te leren via pseudo in-context taken, behaalt het sterke prestaties op een breed scala aan downstream real-world in-context scènebegriptaken. Het overtreft zowel de initiële visuele encoder als eerdere methoden, en biedt een praktische en effectieve oplossing voor het verbeteren van dichte representaties. Code beschikbaar hier: https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP
PDF201June 24, 2025