Griffon v2: Развитие мультимодального восприятия с масштабированием высокого разрешения и визуально-языковой совпадающей.
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Авторы: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Аннотация
Большие модели языка и зрения достигли точного восприятия объектов, однако ограничение разрешения изображения остается значительным препятствием для превзойтия производительности специалистов по конкретным задачам в сложных и плотных сценариях. Такое ограничение дополнительно ограничивает потенциал модели достижения тонкой визуальной и языковой ссылки в областях, таких как агенты GUI, подсчет и т. д. Для решения этой проблемы мы представляем объединенную модель общего назначения с высоким разрешением, Griffon v2, обеспечивающую гибкую ссылку на объекты с визуальными и текстовыми подсказками. Для эффективного увеличения разрешения изображения мы разработали простой и легкий проектор снижения частоты дискретизации для преодоления ограничения на ввод токенов в больших языковых моделях. Этот дизайн встроенно сохраняет полные контексты и мелкие детали, и значительно улучшает способность к мультимодальному восприятию, особенно для маленьких объектов. На основе этого мы дополнительно оснастили модель возможностями визуально-языковой ко-ссылки через удобный в использовании визуальный токенизатор. Он обеспечивает взаимодействие с гибкими целевыми изображениями, свободными текстами и даже координатами. Эксперименты показывают, что Griffon v2 может локализовать любые интересующие объекты с визуальной и текстовой ссылкой, достигать передовой производительности в задачах REC, фразовой привязки и REG, и превосходить экспертные модели в обнаружении объектов и подсчете объектов. Данные, коды и модели будут опубликованы на https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.Summary
AI-Generated Summary