Griffon v2: Avanzando en la Percepción Multimodal con Escalado de Alta Resolución y Co-Referencia Visual-Lingüística
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Autores: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Resumen
Los Modelos de Lenguaje y Visión a Gran Escala han logrado una percepción de objetos de gran detalle, pero la limitación en la resolución de las imágenes sigue siendo un obstáculo significativo para superar el rendimiento de expertos específicos en tareas dentro de escenarios complejos y densos. Esta limitación restringe aún más el potencial del modelo para lograr referencias visuales y lingüísticas matizadas en dominios como Agentes de Interfaz Gráfica, Conteo y \etc. Para abordar este problema, presentamos un modelo generalista de alta resolución unificado, Griffon v2, que permite la referencia flexible de objetos mediante indicaciones visuales y textuales. Para escalar eficientemente la resolución de las imágenes, diseñamos un proyector de submuestreo simple y ligero que supera la restricción de tokens de entrada en los Modelos de Lenguaje a Gran Escala. Este diseño preserva inherentemente los contextos completos y los detalles finos, y mejora significativamente la capacidad de percepción multimodal, especialmente para objetos pequeños. Sobre esta base, equipamos adicionalmente al modelo con capacidades de co-referencia visual-lingüística a través de un tokenizador visual plug-and-play. Esto permite una interacción amigable con imágenes objetivo flexibles, textos de forma libre e incluso coordenadas. Los experimentos demuestran que Griffon v2 puede localizar cualquier objeto de interés mediante referencias visuales y textuales, alcanzar un rendimiento de vanguardia en tareas de REC, anclaje de frases y REG, y superar a modelos expertos en detección y conteo de objetos. Los datos, códigos y modelos se publicarán en https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.Summary
AI-Generated Summary