ChatPaper.aiChatPaper

PaliGemma 2: Eine Familie vielseitiger VLMs für Transfer

PaliGemma 2: A Family of Versatile VLMs for Transfer

December 4, 2024
Autoren: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI

Zusammenfassung

PaliGemma 2 ist ein Upgrade des PaliGemma Open Vision-Language Model (VLM) basierend auf der Gemma 2 Familie von Sprachmodellen. Wir kombinieren den SigLIP-So400m Vision-Encoder, der auch von PaliGemma verwendet wurde, mit der gesamten Palette von Gemma 2 Modellen, vom 2B Modell bis hin zum 27B Modell. Wir trainieren diese Modelle in drei Auflösungen (224px, 448px und 896px) in mehreren Stufen, um sie mit umfassendem Wissen für den Transfer durch Feinabstimmung auszustatten. Die resultierende Familie von Basismodellen, die verschiedene Modellgrößen und Auflösungen abdecken, ermöglicht es uns, Faktoren zu untersuchen, die die Transferleistung beeinflussen (wie z.B. Lernrate) und das Zusammenspiel zwischen Art der Aufgabe, Modellgröße und Auflösung zu analysieren. Wir erweitern zudem die Anzahl und Breite der Transferaufgaben über den Rahmen von PaliGemma hinaus, einschließlich verschiedener OCR-bezogener Aufgaben wie Tabellenstrukturerkennung, Molekülstrukturerkennung, Musiknotenerkennung sowie langzeitiger feingranularer Bildunterschriften und Radiographie-Berichterstellung, bei denen PaliGemma 2 Spitzenleistungen erzielt.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.

Summary

AI-Generated Summary

PDF1348December 5, 2024