SigLIP 2: Multilinguale Vision-Sprache-Encoder mit verbessertem semantischem Verständnis, Lokalisierung und dichten Merkmalen
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
February 20, 2025
Autoren: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI
Zusammenfassung
Wir stellen SigLIP 2 vor, eine Familie neuer multilingualer Vision-Sprache-Encoder, die auf dem Erfolg des ursprünglichen SigLIP aufbauen. In dieser zweiten Iteration erweitern wir das ursprüngliche Bild-Text-Trainingsziel durch mehrere zuvor unabhängig entwickelte Techniken zu einem einheitlichen Rezept – dies umfasst Captioning-basiertes Pre-Training, selbstüberwachte Verluste (Selbst-Distillation, maskierte Vorhersage) und Online-Datenkuratierung. Mit diesen Änderungen übertreffen SigLIP 2-Modelle ihre SigLIP-Pendants in allen Modellgrößen in Kernfähigkeiten, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferleistung bei der Extraktion visueller Repräsentationen für Vision-Language-Modelle (VLMs). Darüber hinaus führt das neue Trainingsrezept zu erheblichen Verbesserungen bei Lokalisierungs- und Dense-Prediction-Aufgaben. Wir trainieren auch Varianten, die mehrere Auflösungen unterstützen und das native Seitenverhältnis der Eingabe beibehalten. Schließlich trainieren wir mit einer diverseren Datenmischung, die Debiasing-Techniken beinhaltet, was zu einem viel besseren multilingualen Verständnis und einer verbesserten Fairness führt. Um Nutzern die Möglichkeit zu geben, Inferenzkosten gegen Leistung abzuwägen, veröffentlichen wir Modell-Checkpoints in vier Größen: ViT-B (86M), L (303M), So400m (400M) und g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders
that build on the success of the original SigLIP. In this second iteration, we
extend the original image-text training objective with several prior,
independently developed techniques into a unified recipe -- this includes
captioning-based pretraining, self-supervised losses (self-distillation, masked
prediction) and online data curation. With these changes, SigLIP 2 models
outperform their SigLIP counterparts at all model scales in core capabilities,
including zero-shot classification, image-text retrieval, and transfer
performance when extracting visual representations for Vision-Language Models
(VLMs). Furthermore, the new training recipe leads to significant improvements
on localization and dense prediction tasks. We also train variants which
support multiple resolutions and preserve the input's native aspect ratio.
Finally, we train on a more diverse data-mixture that includes de-biasing
techniques, leading to much better multilingual understanding and improved
fairness. To allow users to trade off inference cost with performance, we
release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M),
and g (1B).Summary
AI-Generated Summary