Ferret-v2: Uma Linha de Base Aprimorada para Referência e Ancoragem com Modelos de Linguagem de Grande Escala

Resumo

Enquanto o Ferret integra de forma contínua a compreensão regional ao Modelo de Linguagem de Grande Escala (LLM) para facilitar sua capacidade de referência e ancoragem, ele apresenta certas limitações: restrito pelo codificador visual fixo pré-treinado e incapaz de desempenhar bem em tarefas mais amplas. Neste trabalho, apresentamos o Ferret-v2, uma atualização significativa do Ferret, com três designs principais. (1) Ancoragem e referência em qualquer resolução: Uma abordagem flexível que lida facilmente com resoluções de imagem mais altas, melhorando a capacidade do modelo de processar e compreender imagens com maior detalhe. (2) Codificação visual multi-granularidade: Ao integrar o codificador adicional DINOv2, o modelo aprende contextos subjacentes melhores e mais diversos para informações visuais globais e detalhadas. (3) Um paradigma de treinamento em três estágios: Além do alinhamento imagem-legenda, um estágio adicional é proposto para o alinhamento denso de alta resolução antes da sintonia final de instruções. Experimentos mostram que o Ferret-v2 oferece melhorias substanciais em relação ao Ferret e outros métodos de ponta, graças à sua escalabilidade de alta resolução e processamento visual refinado.

English

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Ferret-v2: Uma Linha de Base Aprimorada para Referência e Ancoragem com Modelos de Linguagem de Grande Escala

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

Resumo

Support