Ferret-v2 : Une base de référence améliorée pour la désignation et l'ancrage avec les grands modèles de langage

papers.abstract

Bien que Ferret intègre de manière transparente la compréhension régionale dans le modèle de langage à grande échelle (LLM) pour faciliter ses capacités de référencement et d'ancrage, il présente certaines limitations : contraint par l'encodeur visuel fixe pré-entraîné et incapable de bien performer sur des tâches plus larges. Dans ce travail, nous dévoilons Ferret-v2, une mise à niveau significative de Ferret, avec trois conceptions clés. (1) Ancrage et référencement à toute résolution : une approche flexible qui gère sans effort des résolutions d'image plus élevées, améliorant la capacité du modèle à traiter et à comprendre les images avec plus de détails. (2) Encodage visuel multi-granularité : en intégrant l'encodeur DINOv2 supplémentaire, le modèle apprend mieux et diversifie les contextes sous-jacents pour les informations visuelles globales et fines. (3) Un paradigme d'entraînement en trois étapes : en plus de l'alignement image-légende, une étape supplémentaire est proposée pour l'alignement dense à haute résolution avant le réglage final des instructions. Les expériences montrent que Ferret-v2 apporte des améliorations substantielles par rapport à Ferret et d'autres méthodes de pointe, grâce à sa mise à l'échelle à haute résolution et à son traitement visuel fin.

English

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Ferret-v2 : Une base de référence améliorée pour la désignation et l'ancrage avec les grands modèles de langage

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

papers.abstract

Support