Griffon v2: Vooruitgang in Multimodale Perceptie met Hoge-Resolutie Schaling en Visueel-Taal Co-Referentie
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Auteurs: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Samenvatting
Grote Vision Language Modellen hebben fijnmazige objectwaarneming bereikt, maar de beperking van de beeldresolutie blijft een aanzienlijk obstakel om de prestaties van taakspecifieke experts in complexe en dichte scenario's te overtreffen. Deze beperking beperkt verder het potentieel van het model om genuanceerde visuele en taalverwijzingen te bereiken in domeinen zoals GUI Agents, Tellen en \etc. Om dit probleem aan te pakken, introduceren we een uniform hoogresolutie generalistisch model, Griffon v2, dat flexibele objectverwijzing mogelijk maakt met visuele en tekstuele prompts. Om de beeldresolutie efficiënt op te schalen, ontwerpen we een eenvoudige en lichtgewicht down-sampling projector om de beperking van invoertokens in Grote Taalmodellen te overwinnen. Dit ontwerp behoudt inherent de volledige contexten en fijne details, en verbetert aanzienlijk de multimodale waarnemingscapaciteit, vooral voor kleine objecten. Hierop voortbouwend, rusten we het model verder uit met visuele-taal co-refererende mogelijkheden via een plug-and-play visuele tokenizer. Het maakt gebruiksvriendelijke interactie mogelijk met flexibele doelbeelden, vrije-teksten en zelfs coördinaten. Experimenten tonen aan dat Griffon v2 elk object van interesse kan lokaliseren met visuele en tekstuele verwijzing, state-of-the-art prestaties bereikt op REC, frase grounding en REG taken, en expertmodellen overtreft in objectdetectie en objecttelling. Data, codes en modellen zullen worden vrijgegeven op https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.