PaliGemma 2: Una Familia de VLM Versátiles para Transferencia

Resumen

PaliGemma 2 es una actualización del Modelo de Lenguaje de Visión (VLM, por sus siglas en inglés) abierto PaliGemma basado en la familia de modelos de lenguaje Gemma 2. Combinamos el codificador de visión SigLIP-So400m que también fue utilizado por PaliGemma con toda la gama de modelos Gemma 2, desde el modelo 2B hasta el modelo 27B. Entrenamos estos modelos en tres resoluciones (224px, 448px y 896px) en múltiples etapas para dotarlos de un amplio conocimiento para la transferencia a través del ajuste fino. La familia resultante de modelos base que cubren diferentes tamaños y resoluciones nos permite investigar factores que impactan en el rendimiento de la transferencia (como la tasa de aprendizaje) y analizar la interacción entre el tipo de tarea, el tamaño del modelo y la resolución. Además, aumentamos el número y la amplitud de tareas de transferencia más allá del alcance de PaliGemma, incluyendo diferentes tareas relacionadas con OCR, como el reconocimiento de estructuras de tablas, reconocimiento de estructuras moleculares, reconocimiento de partituras musicales, así como subtítulos detallados y generación de informes de radiografías, en los cuales PaliGemma 2 obtiene resultados de vanguardia.

English

PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.

PaliGemma 2: Una Familia de VLM Versátiles para Transferencia

PaliGemma 2: A Family of Versatile VLMs for Transfer

Resumen

Support