ChatPaper.aiChatPaper

DIP: Необученное плотное пост-обучение визуальных представлений в контексте

DIP: Unsupervised Dense In-Context Post-training of Visual Representations

June 23, 2025
Авторы: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI

Аннотация

Мы представляем DIP — новый метод посттренировки без учителя, предназначенный для улучшения плотных представлений изображений в крупномасштабных предобученных визуальных энкодерах для контекстного понимания сцен. В отличие от предыдущих подходов, которые полагаются на сложные архитектуры самодистилляции, наш метод обучает визуальный энкодер с использованием псевдозадач, которые явно моделируют сценарии контекстного понимания, вдохновленные принципами метаобучения. Для обеспечения посттренировки на немаркированных данных мы предлагаем автоматический механизм генерации контекстных задач, который сочетает предобученную диффузионную модель и сам визуальный энкодер. DIP прост, не требует учителя и вычислительно эффективен, занимая менее 9 часов на одном GPU A100. Обучаясь плотным представлениям через псевдоконтекстные задачи, метод демонстрирует высокую производительность в широком спектре реальных задач контекстного понимания сцен. Он превосходит как исходный визуальный энкодер, так и предыдущие методы, предлагая практичное и эффективное решение для улучшения плотных представлений. Код доступен по ссылке: https://github.com/sirkosophia/DIP.
English
We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP
PDF141June 24, 2025