PaliGemma: 전이 학습을 위한 다용도 3B VLM
PaliGemma: A versatile 3B VLM for transfer
July 10, 2024
저자: Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai
cs.AI
초록
PaliGemma는 SigLIP-So400m 비전 인코더와 Gemma-2B 언어 모델을 기반으로 한 오픈 소스 비전-언어 모델(VLM)입니다. 이 모델은 전이 학습에 효과적이며 다재다능하고 폭넓은 지식을 갖춘 베이스 모델로 학습되었습니다. PaliGemma는 다양한 오픈월드 작업에서 강력한 성능을 보여줍니다. 우리는 표준 VLM 벤치마크뿐만 아니라 원격 감지 및 세분화와 같은 더 전문적인 작업을 포함하여 거의 40가지의 다양한 작업에 대해 PaliGemma를 평가했습니다.
English
PaliGemma is an open Vision-Language Model (VLM) that is based on the
SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to
be a versatile and broadly knowledgeable base model that is effective to
transfer. It achieves strong performance on a wide variety of open-world tasks.
We evaluate PaliGemma on almost 40 diverse tasks including standard VLM
benchmarks, but also more specialized tasks such as remote-sensing and
segmentation.Summary
AI-Generated Summary