Griffon v2: Fortschritte in der multimodalen Wahrnehmung durch hochauflösendes Skalieren und visuell-sprachliches Coreferencing
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Autoren: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Zusammenfassung
Große Vision-Sprachmodelle haben eine fein abgestufte Objektwahrnehmung erreicht, aber die Begrenzung der Bildauflösung bleibt ein signifikantes Hindernis, um die Leistung von aufgabenbezogenen Experten in komplexen und dichten Szenarien zu übertreffen. Eine solche Begrenzung schränkt weiterhin das Potenzial des Modells ein, eine differenzierte visuelle und sprachliche Bezugnahme in Bereichen wie GUI-Agenten, Zählen usw. zu erreichen. Um dieses Problem anzugehen, stellen wir ein vereinheitlichtes Hochauflösungs-Allzweckmodell, Griffon v2, vor, das eine flexible Objektbezugnahme mit visuellen und textuellen Hinweisen ermöglicht. Um die Bildauflösung effizient zu skalieren, entwerfen wir einen einfachen und leichten Down-Sampling-Projektor, um die Eingabetoken-Beschränkung in großen Sprachmodellen zu überwinden. Dieses Design bewahrt die vollständigen Kontexte und feinen Details in sich und verbessert die multimodale Wahrnehmungsfähigkeit signifikant, insbesondere für kleine Objekte. Aufbauend darauf rüsten wir das Modell weiter mit visuell-sprachlichen Mitbezugnahme-Fähigkeiten durch einen Plug-and-Play-Visuellen-Tokenisierer aus. Dies ermöglicht eine benutzerfreundliche Interaktion mit flexiblen Zielbildern, Freitexten und sogar Koordinaten. Experimente zeigen, dass Griffon v2 beliebige interessierende Objekte mit visueller und textueller Bezugnahme lokalisieren kann, Spitzenleistungen bei REC, Phrasenverankerung und REG-Aufgaben erzielt und Expertenmodelle in der Objekterkennung und Objektzählung übertrifft. Daten, Codes und Modelle werden unter https://github.com/jefferyZhan/Griffon veröffentlicht.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.Summary
AI-Generated Summary