ChatPaper.aiChatPaper

PaliGemma 2: Een Familie van Veelzijdige VLM's voor Overdracht

PaliGemma 2: A Family of Versatile VLMs for Transfer

December 4, 2024
Auteurs: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI

Samenvatting

PaliGemma 2 is een upgrade van het PaliGemma open Vision-Language Model (VLM) gebaseerd op de Gemma 2 familie van taalmodellen. We combineren de SigLIP-So400m vision encoder die ook werd gebruikt door PaliGemma met de volledige reeks Gemma 2 modellen, van de 2B tot aan het 27B model. We trainen deze modellen op drie resoluties (224px, 448px en 896px) in meerdere stadia om ze uit te rusten met brede kennis voor overdracht via fine-tuning. De resulterende familie van basismodellen die verschillende modelgroottes en resoluties bestrijken, stelt ons in staat om factoren die de overdrachtsprestaties beïnvloeden (zoals leersnelheid) te onderzoeken en de wisselwerking tussen het type taak, modelgrootte en resolutie te analyseren. We vergroten verder het aantal en de breedte van overdrachttaken buiten het bereik van PaliGemma, inclusief verschillende OCR-gerelateerde taken zoals herkenning van tabelstructuur, herkenning van moleculaire structuur, herkenning van muziekscores, evenals gedetailleerde bijschriftgeneratie en radiografieverslaggeneratie, waarop PaliGemma 2 state-of-the-art resultaten behaalt.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.

Summary

AI-Generated Summary

PDF1348December 5, 2024