SigLIP 2: Encoder Visione-Linguaggio Multilingue con Migliorata Comprensione Semantica, Localizzazione e Caratteristiche Dense

Abstract

Presentiamo SigLIP 2, una famiglia di nuovi encoder visione-linguaggio multilingue che si basano sul successo del modello SigLIP originale. In questa seconda iterazione, estendiamo l'obiettivo di addestramento immagine-testo originale integrando diverse tecniche precedentemente sviluppate in modo indipendente in una ricetta unificata. Questo include pre-addestramento basato su didascalie, perdite auto-supervisionate (auto-distillazione, predizione mascherata) e curatela dei dati online. Con queste modifiche, i modelli SigLIP 2 superano le loro controparti SigLIP a tutte le scale di modello nelle capacità fondamentali, tra cui classificazione zero-shot, recupero immagine-testo e prestazioni di trasferimento durante l'estrazione di rappresentazioni visive per modelli visione-linguaggio (VLM). Inoltre, la nuova ricetta di addestramento porta a miglioramenti significativi nei compiti di localizzazione e predizione densa. Addestriamo anche varianti che supportano più risoluzioni e preservano il rapporto d'aspetto nativo dell'input. Infine, addestriamo su una miscela di dati più diversificata che include tecniche di de-bias, portando a una comprensione multilingue molto migliore e a una maggiore equità. Per consentire agli utenti di bilanciare il costo di inferenza con le prestazioni, rilasciamo checkpoint di modello in quattro dimensioni: ViT-B (86M), L (303M), So400m (400M) e g (1B).

English

We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

SigLIP 2: Encoder Visione-Linguaggio Multilingue con Migliorata Comprensione Semantica, Localizzazione e Caratteristiche Dense

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Abstract

Support