SigLIP 2: Meertalige Visie-Taal Encoders met Verbeterd Semantisch Begrip, Localisatie en Dichte Kenmerken
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
February 20, 2025
Auteurs: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI
Samenvatting
We introduceren SigLIP 2, een familie van nieuwe meertalige visie-taal encoders die voortbouwen op het succes van de originele SigLIP. In deze tweede iteratie breiden we het oorspronkelijke beeld-tekst trainingsdoel uit met verschillende eerder onafhankelijk ontwikkelde technieken tot een verenigd recept -- dit omvat captioning-gebaseerde voorpretraining, zelf-gesuperviseerde verliezen (zelf-distillatie, gemaskeerde voorspelling) en online datacuratie. Met deze aanpassingen overtreffen SigLIP 2-modellen hun SigLIP-tegenhangers op alle modelschalen in kerncapaciteiten, waaronder zero-shot classificatie, beeld-tekst retrieval en transferprestaties bij het extraheren van visuele representaties voor Vision-Language Models (VLMs). Bovendien leidt het nieuwe trainingsrecept tot significante verbeteringen op lokalisatie- en dense voorspellingstaken. We trainen ook varianten die meerdere resoluties ondersteunen en de oorspronkelijke beeldverhouding behouden. Tot slot trainen we op een meer diverse datamix die debiasing-technieken omvat, wat leidt tot een veel beter meertalig begrip en verbeterde eerlijkheid. Om gebruikers in staat te stellen een afweging te maken tussen inferentiekosten en prestaties, geven we modelcheckpoints vrij in vier formaten: ViT-B (86M), L (303M), So400m (400M), en g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders
that build on the success of the original SigLIP. In this second iteration, we
extend the original image-text training objective with several prior,
independently developed techniques into a unified recipe -- this includes
captioning-based pretraining, self-supervised losses (self-distillation, masked
prediction) and online data curation. With these changes, SigLIP 2 models
outperform their SigLIP counterparts at all model scales in core capabilities,
including zero-shot classification, image-text retrieval, and transfer
performance when extracting visual representations for Vision-Language Models
(VLMs). Furthermore, the new training recipe leads to significant improvements
on localization and dense prediction tasks. We also train variants which
support multiple resolutions and preserve the input's native aspect ratio.
Finally, we train on a more diverse data-mixture that includes de-biasing
techniques, leading to much better multilingual understanding and improved
fairness. To allow users to trade off inference cost with performance, we
release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M),
and g (1B).Summary
AI-Generated Summary