ChatPaper.aiChatPaper

Ferret-v2 : Une base de référence améliorée pour la désignation et l'ancrage avec les grands modèles de langage

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

April 11, 2024
Auteurs: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI

Résumé

Bien que Ferret intègre de manière transparente la compréhension régionale dans le modèle de langage à grande échelle (LLM) pour faciliter ses capacités de référencement et d'ancrage, il présente certaines limitations : contraint par l'encodeur visuel fixe pré-entraîné et incapable de bien performer sur des tâches plus larges. Dans ce travail, nous dévoilons Ferret-v2, une mise à niveau significative de Ferret, avec trois conceptions clés. (1) Ancrage et référencement à toute résolution : une approche flexible qui gère sans effort des résolutions d'image plus élevées, améliorant la capacité du modèle à traiter et à comprendre les images avec plus de détails. (2) Encodage visuel multi-granularité : en intégrant l'encodeur DINOv2 supplémentaire, le modèle apprend mieux et diversifie les contextes sous-jacents pour les informations visuelles globales et fines. (3) Un paradigme d'entraînement en trois étapes : en plus de l'alignement image-légende, une étape supplémentaire est proposée pour l'alignement dense à haute résolution avant le réglage final des instructions. Les expériences montrent que Ferret-v2 apporte des améliorations substantielles par rapport à Ferret et d'autres méthodes de pointe, grâce à sa mise à l'échelle à haute résolution et à son traitement visuel fin.
English
While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Summary

AI-Generated Summary

PDF333December 15, 2024