Ferret-v2 : Une base de référence améliorée pour la désignation et l'ancrage avec les grands modèles de langage
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
April 11, 2024
Auteurs: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI
Résumé
Bien que Ferret intègre de manière transparente la compréhension régionale dans le modèle de langage à grande échelle (LLM) pour faciliter ses capacités de référencement et d'ancrage, il présente certaines limitations : contraint par l'encodeur visuel fixe pré-entraîné et incapable de bien performer sur des tâches plus larges. Dans ce travail, nous dévoilons Ferret-v2, une mise à niveau significative de Ferret, avec trois conceptions clés. (1) Ancrage et référencement à toute résolution : une approche flexible qui gère sans effort des résolutions d'image plus élevées, améliorant la capacité du modèle à traiter et à comprendre les images avec plus de détails. (2) Encodage visuel multi-granularité : en intégrant l'encodeur DINOv2 supplémentaire, le modèle apprend mieux et diversifie les contextes sous-jacents pour les informations visuelles globales et fines. (3) Un paradigme d'entraînement en trois étapes : en plus de l'alignement image-légende, une étape supplémentaire est proposée pour l'alignement dense à haute résolution avant le réglage final des instructions. Les expériences montrent que Ferret-v2 apporte des améliorations substantielles par rapport à Ferret et d'autres méthodes de pointe, grâce à sa mise à l'échelle à haute résolution et à son traitement visuel fin.
English
While Ferret seamlessly integrates regional understanding into the Large
Language Model (LLM) to facilitate its referring and grounding capability, it
poses certain limitations: constrained by the pre-trained fixed visual encoder
and failed to perform well on broader tasks. In this work, we unveil Ferret-v2,
a significant upgrade to Ferret, with three key designs. (1) Any resolution
grounding and referring: A flexible approach that effortlessly handles higher
image resolution, improving the model's ability to process and understand
images in greater detail. (2) Multi-granularity visual encoding: By integrating
the additional DINOv2 encoder, the model learns better and diverse underlying
contexts for global and fine-grained visual information. (3) A three-stage
training paradigm: Besides image-caption alignment, an additional stage is
proposed for high-resolution dense alignment before the final instruction
tuning. Experiments show that Ferret-v2 provides substantial improvements over
Ferret and other state-of-the-art methods, thanks to its high-resolution
scaling and fine-grained visual processing.Summary
AI-Generated Summary