SigLIP 2: Encoder Visione-Linguaggio Multilingue con Migliorata Comprensione Semantica, Localizzazione e Caratteristiche Dense
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
February 20, 2025
Autori: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI
Abstract
Presentiamo SigLIP 2, una famiglia di nuovi encoder visione-linguaggio multilingue che si basano sul successo del modello SigLIP originale. In questa seconda iterazione, estendiamo l'obiettivo di addestramento immagine-testo originale integrando diverse tecniche precedentemente sviluppate in modo indipendente in una ricetta unificata. Questo include pre-addestramento basato su didascalie, perdite auto-supervisionate (auto-distillazione, predizione mascherata) e curatela dei dati online. Con queste modifiche, i modelli SigLIP 2 superano le loro controparti SigLIP a tutte le scale di modello nelle capacità fondamentali, tra cui classificazione zero-shot, recupero immagine-testo e prestazioni di trasferimento durante l'estrazione di rappresentazioni visive per modelli visione-linguaggio (VLM). Inoltre, la nuova ricetta di addestramento porta a miglioramenti significativi nei compiti di localizzazione e predizione densa. Addestriamo anche varianti che supportano più risoluzioni e preservano il rapporto d'aspetto nativo dell'input. Infine, addestriamo su una miscela di dati più diversificata che include tecniche di de-bias, portando a una comprensione multilingue molto migliore e a una maggiore equità. Per consentire agli utenti di bilanciare il costo di inferenza con le prestazioni, rilasciamo checkpoint di modello in quattro dimensioni: ViT-B (86M), L (303M), So400m (400M) e g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders
that build on the success of the original SigLIP. In this second iteration, we
extend the original image-text training objective with several prior,
independently developed techniques into a unified recipe -- this includes
captioning-based pretraining, self-supervised losses (self-distillation, masked
prediction) and online data curation. With these changes, SigLIP 2 models
outperform their SigLIP counterparts at all model scales in core capabilities,
including zero-shot classification, image-text retrieval, and transfer
performance when extracting visual representations for Vision-Language Models
(VLMs). Furthermore, the new training recipe leads to significant improvements
on localization and dense prediction tasks. We also train variants which
support multiple resolutions and preserve the input's native aspect ratio.
Finally, we train on a more diverse data-mixture that includes de-biasing
techniques, leading to much better multilingual understanding and improved
fairness. To allow users to trade off inference cost with performance, we
release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M),
and g (1B).Summary
AI-Generated Summary