Ferret-v2: Una baseline migliorata per il riferimento e il grounding con modelli linguistici di grandi dimensioni
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
April 11, 2024
Autori: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
cs.AI
Abstract
Mentre Ferret integra in modo fluido la comprensione regionale nel Large Language Model (LLM) per facilitare le sue capacità di riferimento e ancoraggio, presenta alcune limitazioni: è vincolato dall'encoder visivo pre-addestrato e fisso e non riesce a ottenere buone prestazioni su compiti più ampi. In questo lavoro, presentiamo Ferret-v2, un aggiornamento significativo di Ferret, con tre progettazioni chiave. (1) Riferimento e ancoraggio a qualsiasi risoluzione: un approccio flessibile che gestisce senza sforzo immagini a risoluzione più elevata, migliorando la capacità del modello di elaborare e comprendere immagini con maggiore dettaglio. (2) Codifica visiva multi-granularità: integrando l'encoder aggiuntivo DINOv2, il modello apprende contesti sottostanti migliori e più diversificati per informazioni visive globali e dettagliate. (3) Un paradigma di addestramento in tre fasi: oltre all'allineamento immagine-didascalia, viene proposta una fase aggiuntiva per l'allineamento denso ad alta risoluzione prima della fase finale di ottimizzazione delle istruzioni. Gli esperimenti dimostrano che Ferret-v2 offre miglioramenti sostanziali rispetto a Ferret e ad altri metodi all'avanguardia, grazie alla sua scalabilità ad alta risoluzione e all'elaborazione visiva fine-granulare.
English
While Ferret seamlessly integrates regional understanding into the Large
Language Model (LLM) to facilitate its referring and grounding capability, it
poses certain limitations: constrained by the pre-trained fixed visual encoder
and failed to perform well on broader tasks. In this work, we unveil Ferret-v2,
a significant upgrade to Ferret, with three key designs. (1) Any resolution
grounding and referring: A flexible approach that effortlessly handles higher
image resolution, improving the model's ability to process and understand
images in greater detail. (2) Multi-granularity visual encoding: By integrating
the additional DINOv2 encoder, the model learns better and diverse underlying
contexts for global and fine-grained visual information. (3) A three-stage
training paradigm: Besides image-caption alignment, an additional stage is
proposed for high-resolution dense alignment before the final instruction
tuning. Experiments show that Ferret-v2 provides substantial improvements over
Ferret and other state-of-the-art methods, thanks to its high-resolution
scaling and fine-grained visual processing.