ChatPaper.aiChatPaper

SigLIP 2: Многоязычные кодировщики для обработки изображений и текста с улучшенным семантическим пониманием, локализацией и плотными признаками

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

February 20, 2025
Авторы: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI

Аннотация

Мы представляем SigLIP 2 — семейство новых мультиязычных кодировщиков для задач "визуальный язык", которые развивают успех оригинального SigLIP. В этой второй итерации мы расширяем исходную цель обучения на основе изображений и текста, объединяя несколько ранее разработанных независимо методов в единый подход. Это включает предобучение на основе генерации подписей, самообучаемые функции потерь (самодистилляция, маскированное предсказание) и онлайн-курацию данных. Благодаря этим изменениям модели SigLIP 2 превосходят свои аналоги SigLIP на всех масштабах моделей по ключевым возможностям, включая классификацию с нулевым обучением, поиск по изображениям и тексту, а также производительность при извлечении визуальных представлений для моделей "визуальный язык" (VLMs). Кроме того, новый подход к обучению приводит к значительному улучшению в задачах локализации и плотного предсказания. Мы также обучаем варианты моделей, поддерживающие несколько разрешений и сохраняющие исходное соотношение сторон входных данных. Наконец, обучение проводится на более разнообразной смеси данных с использованием методов устранения смещений, что значительно улучшает мультиязычное понимание и повышает справедливость. Чтобы пользователи могли выбирать между стоимостью вывода и производительностью, мы выпускаем контрольные точки моделей четырех размеров: ViT-B (86M), L (303M), So400m (400M) и g (1B).
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

Summary

AI-Generated Summary

PDF1437February 21, 2025