PaliGemma : Un modĂšle de vision et langage polyvalent de 3 milliards de paramĂštres pour le transfertPaliGemma: A versatile 3B VLM for transfer
PaliGemma est un modĂšle vision-langage (VLM) open source basĂ© sur l'encodeur visuel SigLIP-So400m et le modĂšle de langage Gemma-2B. Il est conçu pour ĂȘtre un modĂšle de base polyvalent et dotĂ© d'une vaste connaissance, efficace pour le transfert. Il obtient des performances solides sur une grande variĂ©tĂ© de tĂąches en monde ouvert. Nous Ă©valuons PaliGemma sur prĂšs de 40 tĂąches diversifiĂ©es, incluant des benchmarks standards pour les VLM, mais aussi des tĂąches plus spĂ©cialisĂ©es telles que la tĂ©lĂ©dĂ©tection et la segmentation.