ChatPaper.aiChatPaper

Griffon v2: Avançando a Percepção Multimodal com Escalonamento de Alta Resolução e Co-Referência Visual-Linguística

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

March 14, 2024
Autores: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI

Resumo

Grandes Modelos de Linguagem e Visão têm alcançado percepção de objetos em nível detalhado, mas a limitação da resolução das imagens continua sendo um obstáculo significativo para superar o desempenho de especialistas em tarefas específicas em cenários complexos e densos. Essa limitação restringe ainda mais o potencial do modelo para alcançar referências visuais e linguísticas refinadas em domínios como Agentes de Interface Gráfica, Contagem e outros. Para resolver esse problema, introduzimos um modelo generalista de alta resolução unificado, o Griffon v2, que permite referências flexíveis de objetos com prompts visuais e textuais. Para escalar eficientemente a resolução das imagens, projetamos um down-sampling simples e leve para superar a restrição de tokens de entrada em Grandes Modelos de Linguagem. Esse design preserva inerentemente os contextos completos e os detalhes finos, melhorando significativamente a capacidade de percepção multimodal, especialmente para objetos pequenos. Com base nisso, equipamos ainda mais o modelo com capacidades de co-referência visual-linguística por meio de um visualizador plug-and-play. Isso permite interações amigáveis com imagens-alvo flexíveis, textos de forma livre e até mesmo coordenadas. Experimentos demonstram que o Griffon v2 pode localizar qualquer objeto de interesse com referências visuais e textuais, alcançando desempenho de ponta em tarefas de REC, ancoragem de frases e REG, e superando modelos especialistas em detecção e contagem de objetos. Dados, códigos e modelos serão disponibilizados em https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and dense scenarios. Such limitation further restricts the model's potential to achieve nuanced visual and language referring in domains such as GUI Agents, Counting and \etc. To address this issue, we introduce a unified high-resolution generalist model, Griffon v2, enabling flexible object referring with visual and textual prompts. To efficiently scaling up image resolution, we design a simple and lightweight down-sampling projector to overcome the input tokens constraint in Large Language Models. This design inherently preserves the complete contexts and fine details, and significantly improves multimodal perception ability especially for small objects. Building upon this, we further equip the model with visual-language co-referring capabilities through a plug-and-play visual tokenizer. It enables user-friendly interaction with flexible target images, free-form texts and even coordinates. Experiments demonstrate that Griffon v2 can localize any objects of interest with visual and textual referring, achieve state-of-the-art performance on REC, phrase grounding, and REG tasks, and outperform expert models in object detection and object counting. Data, codes and models will be released at https://github.com/jefferyZhan/Griffon.
PDF153February 8, 2026