ChatPaper.aiChatPaper

Griffon v2: Avanzando en la Percepción Multimodal con Escalado de Alta Resolución y Co-Referencia Visual-Lingüística

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

March 14, 2024
Autores: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI

Resumen

Los Modelos de Lenguaje y Visión a Gran Escala han logrado una percepción de objetos de gran detalle, pero la limitación en la resolución de las imágenes sigue siendo un obstáculo significativo para superar el rendimiento de expertos específicos en tareas dentro de escenarios complejos y densos. Esta limitación restringe aún más el potencial del modelo para lograr referencias visuales y lingüísticas matizadas en dominios como Agentes de Interfaz Gráfica, Conteo y \etc. Para abordar este problema, presentamos un modelo generalista de alta resolución unificado, Griffon v2, que permite la referencia flexible de objetos mediante indicaciones visuales y textuales. Para escalar eficientemente la resolución de las imágenes, diseñamos un proyector de submuestreo simple y ligero que supera la restricción de tokens de entrada en los Modelos de Lenguaje a Gran Escala. Este diseño preserva inherentemente los contextos completos y los detalles finos, y mejora significativamente la capacidad de percepción multimodal, especialmente para objetos pequeños. Sobre esta base, equipamos adicionalmente al modelo con capacidades de co-referencia visual-lingüística a través de un tokenizador visual plug-and-play. Esto permite una interacción amigable con imágenes objetivo flexibles, textos de forma libre e incluso coordenadas. Los experimentos demuestran que Griffon v2 puede localizar cualquier objeto de interés mediante referencias visuales y textuales, alcanzar un rendimiento de vanguardia en tareas de REC, anclaje de frases y REG, y superar a modelos expertos en detección y conteo de objetos. Los datos, códigos y modelos se publicarán en https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and dense scenarios. Such limitation further restricts the model's potential to achieve nuanced visual and language referring in domains such as GUI Agents, Counting and \etc. To address this issue, we introduce a unified high-resolution generalist model, Griffon v2, enabling flexible object referring with visual and textual prompts. To efficiently scaling up image resolution, we design a simple and lightweight down-sampling projector to overcome the input tokens constraint in Large Language Models. This design inherently preserves the complete contexts and fine details, and significantly improves multimodal perception ability especially for small objects. Building upon this, we further equip the model with visual-language co-referring capabilities through a plug-and-play visual tokenizer. It enables user-friendly interaction with flexible target images, free-form texts and even coordinates. Experiments demonstrate that Griffon v2 can localize any objects of interest with visual and textual referring, achieve state-of-the-art performance on REC, phrase grounding, and REG tasks, and outperform expert models in object detection and object counting. Data, codes and models will be released at https://github.com/jefferyZhan/Griffon.

Summary

AI-Generated Summary

PDF163December 15, 2024