PaliGemma 2: Uma Família de VLMs Versáteis para TransferênciaPaliGemma 2: A Family of Versatile VLMs for Transfer
O PaliGemma 2 é uma atualização do Modelo de Linguagem Visual (VLM) PaliGemma aberto baseado na família de modelos de linguagem Gemma 2. Nós combinamos o codificador de visão SigLIP-So400m que também foi utilizado pelo PaliGemma com toda a gama de modelos Gemma 2, desde o modelo 2B até o modelo 27B. Treinamos esses modelos em três resoluções (224px, 448px e 896px) em múltiplos estágios para equipá-los com amplo conhecimento para transferência via ajuste fino. A família resultante de modelos base cobrindo diferentes tamanhos e resoluções nos permite investigar fatores que impactam o desempenho de transferência (como a taxa de aprendizado) e analisar a interação entre o tipo de tarefa, tamanho do modelo e resolução. Aumentamos ainda o número e a amplitude de tarefas de transferência além do escopo do PaliGemma, incluindo diferentes tarefas relacionadas ao OCR, como reconhecimento de estrutura de tabelas, reconhecimento de estrutura molecular, reconhecimento de partitura musical, bem como legendas finamente detalhadas e geração de relatórios de radiografia, nos quais o PaliGemma 2 obtém resultados de ponta.