PaliGemma: Un VLM 3B versátil para transferenciaPaliGemma: A versatile 3B VLM for transfer
PaliGemma es un Modelo Abierto de Visión-Lenguaje (VLM) que se basa en el codificador de visión SigLIP-So400m y el modelo de lenguaje Gemma-2B. Está entrenado para ser un modelo base versátil y ampliamente informado que es efectivo para la transferencia. Logra un rendimiento sólido en una amplia variedad de tareas de mundo abierto. Evaluamos PaliGemma en casi 40 tareas diversas que incluyen benchmarks estándar de VLM, pero también tareas más especializadas como teledetección y segmentación.