Ferret-v2: Una baseline migliorata per il riferimento e il grounding con modelli linguistici di grandi dimensioni

Abstract

Mentre Ferret integra in modo fluido la comprensione regionale nel Large Language Model (LLM) per facilitare le sue capacità di riferimento e ancoraggio, presenta alcune limitazioni: è vincolato dall'encoder visivo pre-addestrato e fisso e non riesce a ottenere buone prestazioni su compiti più ampi. In questo lavoro, presentiamo Ferret-v2, un aggiornamento significativo di Ferret, con tre progettazioni chiave. (1) Riferimento e ancoraggio a qualsiasi risoluzione: un approccio flessibile che gestisce senza sforzo immagini a risoluzione più elevata, migliorando la capacità del modello di elaborare e comprendere immagini con maggiore dettaglio. (2) Codifica visiva multi-granularità: integrando l'encoder aggiuntivo DINOv2, il modello apprende contesti sottostanti migliori e più diversificati per informazioni visive globali e dettagliate. (3) Un paradigma di addestramento in tre fasi: oltre all'allineamento immagine-didascalia, viene proposta una fase aggiuntiva per l'allineamento denso ad alta risoluzione prima della fase finale di ottimizzazione delle istruzioni. Gli esperimenti dimostrano che Ferret-v2 offre miglioramenti sostanziali rispetto a Ferret e ad altri metodi all'avanguardia, grazie alla sua scalabilità ad alta risoluzione e all'elaborazione visiva fine-granulare.

English

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

Ferret-v2: Una baseline migliorata per il riferimento e il grounding con modelli linguistici di grandi dimensioni

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

Abstract

Support