Ferret-v2: Eine verbesserte Grundlinie für Verweis und Verankerung mit großen Sprachmodellen
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
April 11, 2024
Autoren: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI
Zusammenfassung
Während Ferret regionales Verständnis nahtlos in das Large Language Model (LLM) integriert, um seine Verweis- und Verankerungsfähigkeiten zu erleichtern, stellt es bestimmte Einschränkungen dar: Es ist durch den vortrainierten festen visuellen Encoder begrenzt und konnte nicht gut bei umfassenderen Aufgaben abschneiden. In dieser Arbeit enthüllen wir Ferret-v2, ein bedeutendes Upgrade zu Ferret, mit drei Schlüsselkonzepten. (1) Bodenung und Verweisung in jeder Auflösung: Ein flexibler Ansatz, der mühelos mit höherer Bildauflösung umgeht und die Fähigkeit des Modells verbessert, Bilder im Detail zu verarbeiten und zu verstehen. (2) Multi-Granularitäts-Visuelle Kodierung: Durch die Integration des zusätzlichen DINOv2 Encoders lernt das Modell bessere und vielfältigere zugrunde liegende Kontexte für globale und feinkörnige visuelle Informationen. (3) Ein dreistufiges Schulungsschema: Neben der Bildunterschrift-Abstimmung wird eine zusätzliche Stufe für hochauflösende dichte Ausrichtung vor der endgültigen Anweisungsabstimmung vorgeschlagen. Experimente zeigen, dass Ferret-v2 signifikante Verbesserungen gegenüber Ferret und anderen State-of-the-Art-Methoden bietet, dank seiner hochauflösenden Skalierung und feinkörnigen visuellen Verarbeitung.
English
While Ferret seamlessly integrates regional understanding into the Large
Language Model (LLM) to facilitate its referring and grounding capability, it
poses certain limitations: constrained by the pre-trained fixed visual encoder
and failed to perform well on broader tasks. In this work, we unveil Ferret-v2,
a significant upgrade to Ferret, with three key designs. (1) Any resolution
grounding and referring: A flexible approach that effortlessly handles higher
image resolution, improving the model's ability to process and understand
images in greater detail. (2) Multi-granularity visual encoding: By integrating
the additional DINOv2 encoder, the model learns better and diverse underlying
contexts for global and fine-grained visual information. (3) A three-stage
training paradigm: Besides image-caption alignment, an additional stage is
proposed for high-resolution dense alignment before the final instruction
tuning. Experiments show that Ferret-v2 provides substantial improvements over
Ferret and other state-of-the-art methods, thanks to its high-resolution
scaling and fine-grained visual processing.Summary
AI-Generated Summary