ChatPaper.aiChatPaper

TIPSv2: Avanzamenti nel Pretraining Visione-Linguaggio con un Miglior Allineamento Patch-Testo

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

April 13, 2026
Autori: Bingyi Cao, Koert Chen, Kevis-Kokitsi Maninis, Kaifeng Chen, Arjun Karpur, Ye Xia, Sahil Dua, Tanmaya Dabral, Guangxing Han, Bohyung Han, Joshua Ainslie, Alex Bewley, Mithun Jacob, René Wagner, Washington Ramos, Krzysztof Choromanski, Mojtaba Seyedhosseini, Howard Zhou, André Araujo
cs.AI

Abstract

I recenti progressi nel pre-addestramento visione-linguaggio hanno consentito miglioramenti significativi in molte applicazioni di computer vision downstream, come classificazione, retrieval, segmentazione e predizione della profondità. Tuttavia, una capacità fondamentale con cui questi modelli continuano a lottare è l'allineamento delle rappresentazioni dense a livello di patch con gli embedding testuali dei concetti corrispondenti. In questo lavoro, investigiamo questa problematica critica e proponiamo tecniche innovative per potenziare tale capacità nei modelli fondazionali visione-linguaggio. In primo luogo, riveliamo che una procedura di distillazione a livello di patch migliora significativamente l'allineamento patch-testo denso – sorprendentemente, l'allineamento patch-testo del modello studente distillato supera nettamente quello del modello insegnante. Questa osservazione ci spinge a considerare modifiche alle ricette di pre-addestramento, portandoci a proporre iBOT++, un aggiornamento all'obiettivo comune di immagine mascherata iBOT, in cui anche i token non mascherati contribuiscono direttamente alla loss. Ciò migliora drasticamente l'allineamento patch-testo dei modelli pre-addestrati. Inoltre, per migliorare l'efficienza e l'efficacia del pre-addestramento visione-linguaggio, modifichiamo la configurazione della media mobile esponenziale nella ricetta di apprendimento e introduciamo una strategia di campionamento delle didascalie per trarre vantaggio da didascalie sintetiche a diverse granularità. Combinando questi componenti, sviluppiamo TIPSv2, una nuova famiglia di modelli encoder immagine-testo adatti a un'ampia gamma di applicazioni downstream. Attraverso esperimenti completi su 9 task e 20 dataset, dimostriamo prestazioni robuste, generalmente alla pari o migliori rispetto ai recenti modelli encoder visivi. Il codice e i modelli sono rilasciati tramite la nostra pagina progetto all'indirizzo https://gdm-tipsv2.github.io/.
English
Recent progress in vision-language pretraining has enabled significant improvements to many downstream computer vision applications, such as classification, retrieval, segmentation and depth prediction. However, a fundamental capability that these models still struggle with is aligning dense patch representations with text embeddings of corresponding concepts. In this work, we investigate this critical issue and propose novel techniques to enhance this capability in foundational vision-language models. First, we reveal that a patch-level distillation procedure significantly boosts dense patch-text alignment -- surprisingly, the patch-text alignment of the distilled student model strongly surpasses that of the teacher model. This observation inspires us to consider modifications to pretraining recipes, leading us to propose iBOT++, an upgrade to the commonly-used iBOT masked image objective, where unmasked tokens also contribute directly to the loss. This dramatically enhances patch-text alignment of pretrained models. Additionally, to improve vision-language pretraining efficiency and effectiveness, we modify the exponential moving average setup in the learning recipe, and introduce a caption sampling strategy to benefit from synthetic captions at different granularities. Combining these components, we develop TIPSv2, a new family of image-text encoder models suitable for a wide range of downstream applications. Through comprehensive experiments on 9 tasks and 20 datasets, we demonstrate strong performance, generally on par with or better than recent vision encoder models. Code and models are released via our project page at https://gdm-tipsv2.github.io/ .
PDF41April 21, 2026