ChatPaper.aiChatPaper

SigLIP 2 : Encodeurs vision-langage multilingues avec une compréhension sémantique améliorée, une meilleure localisation et des caractéristiques denses

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

February 20, 2025
Auteurs: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI

Résumé

Nous présentons SigLIP 2, une famille de nouveaux encodeurs multilingues vision-langage qui s'appuient sur le succès du SigLIP original. Dans cette deuxième itération, nous étendons l'objectif de formation image-texte initial en intégrant plusieurs techniques développées indépendamment en une recette unifiée — incluant un pré-entraînement basé sur la génération de légendes, des pertes auto-supervisées (auto-distillation, prédiction masquée) et une curation de données en ligne. Grâce à ces modifications, les modèles SigLIP 2 surpassent leurs homologues SigLIP à toutes les échelles de modèles dans les capacités fondamentales, notamment la classification zero-shot, la recherche image-texte et les performances de transfert lors de l'extraction de représentations visuelles pour les modèles vision-langage (VLMs). De plus, la nouvelle recette d'entraînement conduit à des améliorations significatives sur les tâches de localisation et de prédiction dense. Nous entraînons également des variantes qui prennent en charge plusieurs résolutions et préservent le ratio d'aspect natif de l'entrée. Enfin, nous entraînons sur un mélange de données plus diversifié incluant des techniques de débiaisage, ce qui améliore considérablement la compréhension multilingue et l'équité. Pour permettre aux utilisateurs de faire un compromis entre le coût d'inférence et les performances, nous publions des points de contrôle de modèles à quatre tailles : ViT-B (86M), L (303M), So400m (400M) et g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

Summary

AI-Generated Summary

PDF1437February 21, 2025