TIPSv2: Avançando no Pré-treinamento de Visão e Linguagem com Alinhamento Aprimorado entre Patches e Texto

Resumo

Os recentes avanços no pré-treinamento visão-linguagem têm permitido melhorias significativas em muitas aplicações de visão computacional, como classificação, recuperação, segmentação e predição de profundidade. No entanto, uma capacidade fundamental com a qual estes modelos ainda lutam é o alinhamento de representações densas de *patches* com incorporações de texto de conceitos correspondentes. Neste trabalho, investigamos esta questão crítica e propomos técnicas novas para melhorar esta capacidade em modelos fundamentais visão-linguagem. Primeiro, revelamos que um procedimento de destilação a nível de *patch* aumenta significativamente o alinhamento denso *patch*-texto — surpreendentemente, o alinhamento *patch*-texto do modelo estudante destilado supera fortemente o do modelo professor. Esta observação inspira-nos a considerar modificações nas receitas de pré-treinamento, levando-nos a propor o iBOT++, uma atualização do objetivo comum de imagem mascarada iBOT, onde os *tokens* não mascarados também contribuem diretamente para a perda. Isto melhora dramaticamente o alinhamento *patch*-texto dos modelos pré-treinados. Adicionalmente, para melhorar a eficiência e eficácia do pré-treinamento visão-linguagem, modificamos a configuração da média móvel exponencial na receita de aprendizagem e introduzimos uma estratégia de amostragem de legendas para beneficiar de legendas sintéticas em diferentes granularidades. Combinando estes componentes, desenvolvemos o TIPSv2, uma nova família de modelos codificadores de imagem-texto adequada para uma ampla gama de aplicações a jusante. Através de experiências abrangentes em 9 tarefas e 20 conjuntos de dados, demonstramos um desempenho robusto, geralmente em pé de igualdade ou superior a modelos recentes de codificadores de visão. O código e os modelos são disponibilizados através da nossa página do projeto em https://gdm-tipsv2.github.io/.

English

Recent progress in vision-language pretraining has enabled significant improvements to many downstream computer vision applications, such as classification, retrieval, segmentation and depth prediction. However, a fundamental capability that these models still struggle with is aligning dense patch representations with text embeddings of corresponding concepts. In this work, we investigate this critical issue and propose novel techniques to enhance this capability in foundational vision-language models. First, we reveal that a patch-level distillation procedure significantly boosts dense patch-text alignment -- surprisingly, the patch-text alignment of the distilled student model strongly surpasses that of the teacher model. This observation inspires us to consider modifications to pretraining recipes, leading us to propose iBOT++, an upgrade to the commonly-used iBOT masked image objective, where unmasked tokens also contribute directly to the loss. This dramatically enhances patch-text alignment of pretrained models. Additionally, to improve vision-language pretraining efficiency and effectiveness, we modify the exponential moving average setup in the learning recipe, and introduce a caption sampling strategy to benefit from synthetic captions at different granularities. Combining these components, we develop TIPSv2, a new family of image-text encoder models suitable for a wide range of downstream applications. Through comprehensive experiments on 9 tasks and 20 datasets, we demonstrate strong performance, generally on par with or better than recent vision encoder models. Code and models are released via our project page at https://gdm-tipsv2.github.io/ .

TIPSv2: Avançando no Pré-treinamento de Visão e Linguagem com Alinhamento Aprimorado entre Patches e Texto

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Resumo

Support