Griffon v2: Avanzamenti nella Percezione Multimodale con Scalabilità ad Alta Risoluzione e Co-Riferimento Visivo-Linguistico
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Autori: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Abstract
I grandi modelli linguistici visivi hanno raggiunto una percezione fine degli oggetti, ma la limitazione della risoluzione delle immagini rimane un ostacolo significativo per superare le prestazioni degli esperti specifici per compiti in scenari complessi e densi. Tale limitazione restringe ulteriormente il potenziale del modello di ottenere un riferimento visivo e linguistico sfumato in domini come gli agenti GUI, il conteggio e \etc. Per affrontare questo problema, introduciamo un modello generalista ad alta risoluzione unificato, Griffon v2, che consente un riferimento flessibile agli oggetti con prompt visivi e testuali. Per scalare in modo efficiente la risoluzione delle immagini, progettiamo un proiettore di down-sampling semplice e leggero per superare il vincolo dei token di input nei grandi modelli linguistici. Questo design preserva intrinsecamente i contesti completi e i dettagli fini, e migliora significativamente la capacità di percezione multimodale, specialmente per gli oggetti piccoli. Basandoci su questo, dotiamo ulteriormente il modello di capacità di co-riferimento visivo-linguistico attraverso un tokenizzatore visivo plug-and-play. Ciò consente un'interazione user-friendly con immagini target flessibili, testi liberi e persino coordinate. Gli esperimenti dimostrano che Griffon v2 può localizzare qualsiasi oggetto di interesse con riferimento visivo e testuale, raggiungere prestazioni all'avanguardia nei compiti REC, phrase grounding e REG, e superare i modelli esperti nel rilevamento e nel conteggio degli oggetti. Dati, codici e modelli saranno rilasciati su https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.