Ferret-v2: Una línea base mejorada para referencia y anclaje con modelos de lenguaje a gran escala

Resumen

Mientras que Ferret integra de manera fluida la comprensión regional en el Modelo de Lenguaje de Gran Escala (LLM) para facilitar su capacidad de referencia y anclaje, presenta ciertas limitaciones: está restringido por el codificador visual fijo preentrenado y no logra un buen desempeño en tareas más amplias. En este trabajo, presentamos Ferret-v2, una mejora significativa de Ferret, con tres diseños clave. (1) Anclaje y referencia en cualquier resolución: Un enfoque flexible que maneja sin esfuerzo imágenes de mayor resolución, mejorando la capacidad del modelo para procesar y comprender imágenes con mayor detalle. (2) Codificación visual multi-granularidad: Al integrar el codificador adicional DINOv2, el modelo aprende mejor y captura contextos subyacentes diversos para información visual global y de grano fino. (3) Un paradigma de entrenamiento en tres etapas: Además de la alineación imagen-texto, se propone una etapa adicional para la alineación densa de alta resolución antes del ajuste final por instrucción. Los experimentos muestran que Ferret-v2 ofrece mejoras sustanciales sobre Ferret y otros métodos de vanguardia, gracias a su escalado de alta resolución y procesamiento visual de grano fino.

English

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Ferret-v2: Una línea base mejorada para referencia y anclaje con modelos de lenguaje a gran escala

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

Resumen

Support