ChatPaper.aiChatPaper

SigLIP 2: Codificadores Multilingües de Visión y Lenguaje con Mejor Comprensión Semántica, Localización y Características Densas

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

February 20, 2025
Autores: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI

Resumen

Presentamos SigLIP 2, una familia de nuevos codificadores multilingües de visión y lenguaje que se basan en el éxito del SigLIP original. En esta segunda iteración, extendemos el objetivo de entrenamiento original de imagen-texto con varias técnicas previamente desarrolladas de forma independiente, integradas en una receta unificada. Esto incluye preentrenamiento basado en subtítulos, pérdidas auto-supervisadas (auto-distilación, predicción enmascarada) y curación de datos en línea. Con estos cambios, los modelos SigLIP 2 superan a sus contrapartes SigLIP en todas las escalas del modelo en capacidades fundamentales, como la clasificación zero-shot, la recuperación de imagen-texto y el rendimiento en transferencia al extraer representaciones visuales para Modelos de Visión y Lenguaje (VLMs). Además, la nueva receta de entrenamiento conduce a mejoras significativas en tareas de localización y predicción densa. También entrenamos variantes que admiten múltiples resoluciones y preservan la relación de aspecto nativa de la entrada. Finalmente, entrenamos con una mezcla de datos más diversa que incluye técnicas de desviación, lo que resulta en una comprensión multilingüe mucho mejor y una mayor equidad. Para permitir a los usuarios equilibrar el costo de inferencia con el rendimiento, publicamos puntos de control del modelo en cuatro tamaños: ViT-B (86M), L (303M), So400m (400M) y g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

Summary

AI-Generated Summary

PDF1437February 21, 2025