ChatPaper.aiChatPaper

PaliGemma : Un modèle de vision et langage polyvalent de 3 milliards de paramètres pour le transfert

PaliGemma: A versatile 3B VLM for transfer

July 10, 2024
Auteurs: Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai
cs.AI

Résumé

PaliGemma est un modèle vision-langage (VLM) open source basé sur l'encodeur visuel SigLIP-So400m et le modèle de langage Gemma-2B. Il est conçu pour être un modèle de base polyvalent et doté d'une vaste connaissance, efficace pour le transfert. Il obtient des performances solides sur une grande variété de tâches en monde ouvert. Nous évaluons PaliGemma sur près de 40 tâches diversifiées, incluant des benchmarks standards pour les VLM, mais aussi des tâches plus spécialisées telles que la télédétection et la segmentation.
English
PaliGemma is an open Vision-Language Model (VLM) that is based on the SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. It achieves strong performance on a wide variety of open-world tasks. We evaluate PaliGemma on almost 40 diverse tasks including standard VLM benchmarks, but also more specialized tasks such as remote-sensing and segmentation.

Summary

AI-Generated Summary

PDF714November 28, 2024