TIPSv2: Vooruitgang in Vision-Language Pretraining met Verbeterde Patch-Text Afstemming

Samenvatting

Recente vooruitgang in visueel-taalkundige vooraftraining heeft aanzienlijke verbeteringen mogelijk gemaakt voor vele downstream computervisietoepassingen, zoals classificatie, retrievel, segmentatie en dieptepredictie. Een fundamentele vaardigheid waar deze modellen echter nog steeds mee worstelen, is het afstemmen van dichte patchrepresentaties op tekst-embeddingen van corresponderende concepten. In dit werk onderzoeken we dit kritieke probleem en stellen we nieuwe technieken voor om deze vaardigheid in fundamentele visueel-taalkundige modellen te verbeteren. Ten eerste tonen we aan dat een procedure voor distillatie op patchniveau de dichte patch-tekst-afstemming aanzienlijk verbetert – verrassend genoeg overtreft de patch-tekst-afstemming van het gedistilleerde studentmodel die van het leraarmodel sterk. Deze observatie inspireert ons om wijzigingen in vooraftrainingsrecepten te overwegen, wat leidt tot ons voorstel voor iBOT++, een upgrade van het veelgebruikte iBOT-masked-image-doel, waarbij ongemaskeerde tokens ook direct bijdragen aan het verlies. Dit verbetert de patch-tekst-afstemming van vooraf getrainde modellen aanzienlijk. Daarnaast passen we, om de efficiëntie en effectiviteit van visueel-taalkundige vooraftraining te verbeteren, de exponential-moving-average-opzet in het leerrecept aan en introduceren we een caption-steekproefstrategie om te profiteren van synthetische bijschriften op verschillende granulariteiten. Door deze componenten te combineren, ontwikkelen we TIPSv2, een nieuwe familie van beeld-tekst-encodermodellen die geschikt is voor een breed scala aan downstream-toepassingen. Door middel van uitgebreide experimenten op 9 taken en 20 datasets demonstreren we sterke prestaties, over het algemeen vergelijkbaar met of beter dan recente visuele-encodermodellen. Code en modellen zijn vrijgegeven via onze projectpagina op https://gdm-tipsv2.github.io/.

English

Recent progress in vision-language pretraining has enabled significant improvements to many downstream computer vision applications, such as classification, retrieval, segmentation and depth prediction. However, a fundamental capability that these models still struggle with is aligning dense patch representations with text embeddings of corresponding concepts. In this work, we investigate this critical issue and propose novel techniques to enhance this capability in foundational vision-language models. First, we reveal that a patch-level distillation procedure significantly boosts dense patch-text alignment -- surprisingly, the patch-text alignment of the distilled student model strongly surpasses that of the teacher model. This observation inspires us to consider modifications to pretraining recipes, leading us to propose iBOT++, an upgrade to the commonly-used iBOT masked image objective, where unmasked tokens also contribute directly to the loss. This dramatically enhances patch-text alignment of pretrained models. Additionally, to improve vision-language pretraining efficiency and effectiveness, we modify the exponential moving average setup in the learning recipe, and introduce a caption sampling strategy to benefit from synthetic captions at different granularities. Combining these components, we develop TIPSv2, a new family of image-text encoder models suitable for a wide range of downstream applications. Through comprehensive experiments on 9 tasks and 20 datasets, we demonstrate strong performance, generally on par with or better than recent vision encoder models. Code and models are released via our project page at https://gdm-tipsv2.github.io/ .

TIPSv2: Vooruitgang in Vision-Language Pretraining met Verbeterde Patch-Text Afstemming

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Samenvatting

Support