Ferret-v2: Una línea base mejorada para referencia y anclaje con modelos de lenguaje a gran escala
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
April 11, 2024
Autores: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI
Resumen
Mientras que Ferret integra de manera fluida la comprensión regional en el Modelo de Lenguaje de Gran Escala (LLM) para facilitar su capacidad de referencia y anclaje, presenta ciertas limitaciones: está restringido por el codificador visual fijo preentrenado y no logra un buen desempeño en tareas más amplias. En este trabajo, presentamos Ferret-v2, una mejora significativa de Ferret, con tres diseños clave. (1) Anclaje y referencia en cualquier resolución: Un enfoque flexible que maneja sin esfuerzo imágenes de mayor resolución, mejorando la capacidad del modelo para procesar y comprender imágenes con mayor detalle. (2) Codificación visual multi-granularidad: Al integrar el codificador adicional DINOv2, el modelo aprende mejor y captura contextos subyacentes diversos para información visual global y de grano fino. (3) Un paradigma de entrenamiento en tres etapas: Además de la alineación imagen-texto, se propone una etapa adicional para la alineación densa de alta resolución antes del ajuste final por instrucción. Los experimentos muestran que Ferret-v2 ofrece mejoras sustanciales sobre Ferret y otros métodos de vanguardia, gracias a su escalado de alta resolución y procesamiento visual de grano fino.
English
While Ferret seamlessly integrates regional understanding into the Large
Language Model (LLM) to facilitate its referring and grounding capability, it
poses certain limitations: constrained by the pre-trained fixed visual encoder
and failed to perform well on broader tasks. In this work, we unveil Ferret-v2,
a significant upgrade to Ferret, with three key designs. (1) Any resolution
grounding and referring: A flexible approach that effortlessly handles higher
image resolution, improving the model's ability to process and understand
images in greater detail. (2) Multi-granularity visual encoding: By integrating
the additional DINOv2 encoder, the model learns better and diverse underlying
contexts for global and fine-grained visual information. (3) A three-stage
training paradigm: Besides image-caption alignment, an additional stage is
proposed for high-resolution dense alignment before the final instruction
tuning. Experiments show that Ferret-v2 provides substantial improvements over
Ferret and other state-of-the-art methods, thanks to its high-resolution
scaling and fine-grained visual processing.Summary
AI-Generated Summary