ChatPaper.aiChatPaper

Ferret-v2: Een verbeterde basislijn voor verwijzing en gronding met grote taalmodellen

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

April 11, 2024
Auteurs: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI

Samenvatting

Hoewel Ferret naadloos regionaal begrip integreert in het Large Language Model (LLM) om zijn verwijzings- en grondingsvermogen te vergemakkelijken, stelt het bepaalde beperkingen: het is beperkt door de vooraf getrainde vaste visuele encoder en presteert niet goed op bredere taken. In dit werk onthullen we Ferret-v2, een significante upgrade van Ferret, met drie belangrijke ontwerpen. (1) Gronding en verwijzing bij elke resolutie: Een flexibele aanpak die moeiteloos omgaat met hogere beeldresolutie, waardoor het vermogen van het model om beelden in groter detail te verwerken en te begrijpen, wordt verbeterd. (2) Multi-granulariteit visuele codering: Door de extra DINOv2-encoder te integreren, leert het model betere en diverse onderliggende contexten voor globale en fijnmazige visuele informatie. (3) Een driestappen trainingsparadigma: Naast beeld-bijschriftuitlijning wordt een extra fase voorgesteld voor hoogresolutie dichte uitlijning vóór de uiteindelijke instructieafstemming. Experimenten tonen aan dat Ferret-v2 aanzienlijke verbeteringen biedt ten opzichte van Ferret en andere state-of-the-art methoden, dankzij zijn hoogresolutie schaling en fijnmazige visuele verwerking.
English
While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.
PDF323December 15, 2024