ChatPaper.aiChatPaper

Ferret-v2: Una línea base mejorada para referencia y anclaje con modelos de lenguaje a gran escala

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

April 11, 2024
Autores: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI

Resumen

Mientras que Ferret integra de manera fluida la comprensión regional en el Modelo de Lenguaje de Gran Escala (LLM) para facilitar su capacidad de referencia y anclaje, presenta ciertas limitaciones: está restringido por el codificador visual fijo preentrenado y no logra un buen desempeño en tareas más amplias. En este trabajo, presentamos Ferret-v2, una mejora significativa de Ferret, con tres diseños clave. (1) Anclaje y referencia en cualquier resolución: Un enfoque flexible que maneja sin esfuerzo imágenes de mayor resolución, mejorando la capacidad del modelo para procesar y comprender imágenes con mayor detalle. (2) Codificación visual multi-granularidad: Al integrar el codificador adicional DINOv2, el modelo aprende mejor y captura contextos subyacentes diversos para información visual global y de grano fino. (3) Un paradigma de entrenamiento en tres etapas: Además de la alineación imagen-texto, se propone una etapa adicional para la alineación densa de alta resolución antes del ajuste final por instrucción. Los experimentos muestran que Ferret-v2 ofrece mejoras sustanciales sobre Ferret y otros métodos de vanguardia, gracias a su escalado de alta resolución y procesamiento visual de grano fino.
English
While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Summary

AI-Generated Summary

PDF333December 15, 2024