Ferret-v2: Uma Linha de Base Aprimorada para Referência e Ancoragem com Modelos de Linguagem de Grande Escala
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
April 11, 2024
Autores: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI
Resumo
Enquanto o Ferret integra de forma contínua a compreensão regional ao Modelo de Linguagem de Grande Escala (LLM) para facilitar sua capacidade de referência e ancoragem, ele apresenta certas limitações: restrito pelo codificador visual fixo pré-treinado e incapaz de desempenhar bem em tarefas mais amplas. Neste trabalho, apresentamos o Ferret-v2, uma atualização significativa do Ferret, com três designs principais. (1) Ancoragem e referência em qualquer resolução: Uma abordagem flexível que lida facilmente com resoluções de imagem mais altas, melhorando a capacidade do modelo de processar e compreender imagens com maior detalhe. (2) Codificação visual multi-granularidade: Ao integrar o codificador adicional DINOv2, o modelo aprende contextos subjacentes melhores e mais diversos para informações visuais globais e detalhadas. (3) Um paradigma de treinamento em três estágios: Além do alinhamento imagem-legenda, um estágio adicional é proposto para o alinhamento denso de alta resolução antes da sintonia final de instruções. Experimentos mostram que o Ferret-v2 oferece melhorias substanciais em relação ao Ferret e outros métodos de ponta, graças à sua escalabilidade de alta resolução e processamento visual refinado.
English
While Ferret seamlessly integrates regional understanding into the Large
Language Model (LLM) to facilitate its referring and grounding capability, it
poses certain limitations: constrained by the pre-trained fixed visual encoder
and failed to perform well on broader tasks. In this work, we unveil Ferret-v2,
a significant upgrade to Ferret, with three key designs. (1) Any resolution
grounding and referring: A flexible approach that effortlessly handles higher
image resolution, improving the model's ability to process and understand
images in greater detail. (2) Multi-granularity visual encoding: By integrating
the additional DINOv2 encoder, the model learns better and diverse underlying
contexts for global and fine-grained visual information. (3) A three-stage
training paradigm: Besides image-caption alignment, an additional stage is
proposed for high-resolution dense alignment before the final instruction
tuning. Experiments show that Ferret-v2 provides substantial improvements over
Ferret and other state-of-the-art methods, thanks to its high-resolution
scaling and fine-grained visual processing.