SigLIP 2: Codificadores Visão-Linguagem Multilíngues com Melhor Compreensão Semântica, Localização e Recursos Densos
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
February 20, 2025
Autores: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI
Resumo
Apresentamos o SigLIP 2, uma família de novos codificadores visão-linguagem multilingues que se baseiam no sucesso do SigLIP original. Nesta segunda iteração, estendemos o objetivo original de treinamento imagem-texto com várias técnicas previamente desenvolvidas de forma independente, integrando-as em uma receita unificada -- isso inclui pré-treinamento baseado em legendagem, perdas auto-supervisionadas (auto-distilação, predição mascarada) e curadoria de dados online. Com essas mudanças, os modelos SigLIP 2 superam suas contrapartes do SigLIP em todas as escalas de modelo em capacidades essenciais, incluindo classificação zero-shot, recuperação imagem-texto e desempenho de transferência ao extrair representações visuais para Modelos de Visão-Linguagem (VLMs). Além disso, a nova receita de treinamento leva a melhorias significativas em tarefas de localização e predição densa. Também treinamos variantes que suportam múltiplas resoluções e preservam a proporção de aspecto nativa da entrada. Por fim, treinamos com uma mistura de dados mais diversificada que inclui técnicas de redução de viés, resultando em uma compreensão multilingue muito melhor e em maior equidade. Para permitir que os usuários façam uma troca entre custo de inferência e desempenho, lançamos checkpoints de modelo em quatro tamanhos: ViT-B (86M), L (303M), So400m (400M) e g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders
that build on the success of the original SigLIP. In this second iteration, we
extend the original image-text training objective with several prior,
independently developed techniques into a unified recipe -- this includes
captioning-based pretraining, self-supervised losses (self-distillation, masked
prediction) and online data curation. With these changes, SigLIP 2 models
outperform their SigLIP counterparts at all model scales in core capabilities,
including zero-shot classification, image-text retrieval, and transfer
performance when extracting visual representations for Vision-Language Models
(VLMs). Furthermore, the new training recipe leads to significant improvements
on localization and dense prediction tasks. We also train variants which
support multiple resolutions and preserve the input's native aspect ratio.
Finally, we train on a more diverse data-mixture that includes de-biasing
techniques, leading to much better multilingual understanding and improved
fairness. To allow users to trade off inference cost with performance, we
release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M),
and g (1B).Summary
AI-Generated Summary