ChatPaper.aiChatPaper

PaliGemma 2: Uma Família de VLMs Versáteis para Transferência

PaliGemma 2: A Family of Versatile VLMs for Transfer

December 4, 2024
Autores: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI

Resumo

O PaliGemma 2 é uma atualização do Modelo de Linguagem Visual (VLM) PaliGemma aberto baseado na família de modelos de linguagem Gemma 2. Nós combinamos o codificador de visão SigLIP-So400m que também foi utilizado pelo PaliGemma com toda a gama de modelos Gemma 2, desde o modelo 2B até o modelo 27B. Treinamos esses modelos em três resoluções (224px, 448px e 896px) em múltiplos estágios para equipá-los com amplo conhecimento para transferência via ajuste fino. A família resultante de modelos base cobrindo diferentes tamanhos e resoluções nos permite investigar fatores que impactam o desempenho de transferência (como a taxa de aprendizado) e analisar a interação entre o tipo de tarefa, tamanho do modelo e resolução. Aumentamos ainda o número e a amplitude de tarefas de transferência além do escopo do PaliGemma, incluindo diferentes tarefas relacionadas ao OCR, como reconhecimento de estrutura de tabelas, reconhecimento de estrutura molecular, reconhecimento de partitura musical, bem como legendas finamente detalhadas e geração de relatórios de radiografia, nos quais o PaliGemma 2 obtém resultados de ponta.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.

Summary

AI-Generated Summary

PDF1348December 5, 2024