ChatPaper.aiChatPaper

SigLIP 2: Multilinguale Vision-Sprache-Encoder mit verbessertem semantischem Verständnis, Lokalisierung und dichten Merkmalen

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

February 20, 2025
Autoren: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI

Zusammenfassung

Wir stellen SigLIP 2 vor, eine Familie neuer multilingualer Vision-Sprache-Encoder, die auf dem Erfolg des ursprünglichen SigLIP aufbauen. In dieser zweiten Iteration erweitern wir das ursprüngliche Bild-Text-Trainingsziel durch mehrere zuvor unabhängig entwickelte Techniken zu einem einheitlichen Rezept – dies umfasst Captioning-basiertes Pre-Training, selbstüberwachte Verluste (Selbst-Distillation, maskierte Vorhersage) und Online-Datenkuratierung. Mit diesen Änderungen übertreffen SigLIP 2-Modelle ihre SigLIP-Pendants in allen Modellgrößen in Kernfähigkeiten, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferleistung bei der Extraktion visueller Repräsentationen für Vision-Language-Modelle (VLMs). Darüber hinaus führt das neue Trainingsrezept zu erheblichen Verbesserungen bei Lokalisierungs- und Dense-Prediction-Aufgaben. Wir trainieren auch Varianten, die mehrere Auflösungen unterstützen und das native Seitenverhältnis der Eingabe beibehalten. Schließlich trainieren wir mit einer diverseren Datenmischung, die Debiasing-Techniken beinhaltet, was zu einem viel besseren multilingualen Verständnis und einer verbesserten Fairness führt. Um Nutzern die Möglichkeit zu geben, Inferenzkosten gegen Leistung abzuwägen, veröffentlichen wir Modell-Checkpoints in vier Größen: ViT-B (86M), L (303M), So400m (400M) und g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

Summary

AI-Generated Summary

PDF1437February 21, 2025