PaliGemma: Um VLM 3B versátil para transferência
PaliGemma: A versatile 3B VLM for transfer
July 10, 2024
Autores: Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai
cs.AI
Resumo
PaliGemma é um Modelo Aberto de Visão e Linguagem (VLM) baseado no codificador de visão SigLIP-So400m e no modelo de linguagem Gemma-2B. Ele é treinado para ser um modelo base versátil e amplamente conhecedor, eficaz para transferência. Ele alcança um desempenho sólido em uma ampla variedade de tarefas de mundo aberto. Avaliamos o PaliGemma em quase 40 tarefas diversas, incluindo benchmarks padrão de VLM, mas também tarefas mais especializadas, como sensoriamento remoto e segmentação.
English
PaliGemma is an open Vision-Language Model (VLM) that is based on the
SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to
be a versatile and broadly knowledgeable base model that is effective to
transfer. It achieves strong performance on a wide variety of open-world tasks.
We evaluate PaliGemma on almost 40 diverse tasks including standard VLM
benchmarks, but also more specialized tasks such as remote-sensing and
segmentation.