PaliGemma 2: Семейство универсальных VLM для передачи
PaliGemma 2: A Family of Versatile VLMs for Transfer
December 4, 2024
Авторы: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI
Аннотация
PaliGemma 2 является улучшением открытой модели Vision-Language Model (VLM) PaliGemma на основе семейства языковых моделей Gemma 2. Мы комбинируем видео-кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы оснастить их обширными знаниями для передачи через тонкую настройку. Результирующее семейство базовых моделей, охватывающее различные размеры моделей и разрешения, позволяет нам исследовать факторы, влияющие на производительность передачи (такие как скорость обучения) и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и широту задач передачи за пределами области PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблиц, распознавание молекулярной структуры, распознавание музыкальных нот, а также длинное детализированное подписывание и генерацию радиологических отчетов, на которых PaliGemma 2 достигает передовых результатов.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM)
based on the Gemma 2 family of language models. We combine the SigLIP-So400m
vision encoder that was also used by PaliGemma with the whole range of Gemma 2
models, from the 2B one all the way up to the 27B model. We train these models
at three resolutions (224px, 448px, and 896px) in multiple stages to equip them
with broad knowledge for transfer via fine-tuning. The resulting family of base
models covering different model sizes and resolutions allows us to investigate
factors impacting transfer performance (such as learning rate) and to analyze
the interplay between the type of task, model size, and resolution. We further
increase the number and breadth of transfer tasks beyond the scope of PaliGemma
including different OCR-related tasks such as table structure recognition,
molecular structure recognition, music score recognition, as well as long
fine-grained captioning and radiography report generation, on which PaliGemma 2
obtains state-of-the-art results.Summary
AI-Generated Summary