ChatPaper.aiChatPaper

PaliGemma 2 : Une famille de VLM polyvalents pour le transfert

PaliGemma 2: A Family of Versatile VLMs for Transfer

December 4, 2024
Auteurs: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI

Résumé

PaliGemma 2 est une mise à niveau du modèle ouvert PaliGemma Vision-Language Model (VLM) basé sur la famille de modèles de langage Gemma 2. Nous combinons l'encodeur vision SigLIP-So400m qui était également utilisé par PaliGemma avec toute la gamme de modèles Gemma 2, du modèle 2B jusqu'au modèle 27B. Nous entraînons ces modèles à trois résolutions (224px, 448px et 896px) en plusieurs étapes pour les doter d'une connaissance étendue en vue d'un transfert via un fine-tuning. La famille résultante de modèles de base couvrant différentes tailles de modèles et résolutions nous permet d'explorer les facteurs impactant les performances de transfert (comme le taux d'apprentissage) et d'analyser l'interaction entre le type de tâche, la taille du modèle et la résolution. Nous augmentons en outre le nombre et la portée des tâches de transfert au-delà du cadre de PaliGemma, y compris différentes tâches liées à la ROC telles que la reconnaissance de la structure des tableaux, la reconnaissance de la structure moléculaire, la reconnaissance des partitions musicales, ainsi que la génération de légendes fines et détaillées et de rapports de radiographie, sur lesquels PaliGemma 2 obtient des résultats de pointe.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.
PDF1348December 5, 2024