ChatPaper.aiChatPaper

DIP: Pós-treinamento Denso e Não Supervisionado de Representações Visuais em Contexto

DIP: Unsupervised Dense In-Context Post-training of Visual Representations

June 23, 2025
Autores: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome
cs.AI

Resumo

Apresentamos o DIP, um novo método não supervisionado de pós-treinamento projetado para aprimorar representações densas de imagens em codificadores visuais pré-treinados em larga escala para a compreensão contextual de cenas. Diferente de abordagens anteriores que dependem de arquiteturas complexas de auto-distilação, nosso método treina o codificador visual utilizando pseudo-tarefas que simulam explicitamente cenários contextuais subsequentes, inspirados por princípios de meta-aprendizado. Para permitir o pós-treinamento em dados não rotulados, propomos um mecanismo automático para gerar tarefas contextuais que combina um modelo de difusão pré-treinado e o próprio codificador visual. O DIP é simples, não supervisionado e computacionalmente eficiente, exigindo menos de 9 horas em uma única GPU A100. Ao aprender representações densas por meio de pseudo-tarefas contextuais, ele alcança um desempenho robusto em uma ampla variedade de tarefas contextuais subsequentes de compreensão de cenas no mundo real. Ele supera tanto o codificador visual inicial quanto métodos anteriores, oferecendo uma solução prática e eficaz para melhorar representações densas. O código está disponível aqui: https://github.com/sirkosophia/DIP
English
We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP
PDF211June 24, 2025