Griffon v2 : Progrès dans la perception multimodale grâce à la mise à l'échelle haute résolution et à la coréférence visuo-linguistique
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
March 14, 2024
Auteurs: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Résumé
Les grands modèles de vision et de langage ont atteint une perception fine des objets, mais la limitation de la résolution des images reste un obstacle majeur pour surpasser les performances des experts spécifiques à une tâche dans des scénarios complexes et denses. Cette limitation restreint davantage le potentiel du modèle à réaliser des références visuelles et linguistiques nuancées dans des domaines tels que les agents d'interface graphique, le comptage, etc. Pour résoudre ce problème, nous introduisons un modèle généraliste unifié à haute résolution, Griffon v2, permettant une référence flexible des objets avec des invites visuelles et textuelles. Pour augmenter efficacement la résolution des images, nous concevons un projecteur de sous-échantillonnage simple et léger pour surmonter la contrainte des tokens d'entrée dans les grands modèles de langage. Cette conception préserve intrinsèquement les contextes complets et les détails fins, et améliore significativement la capacité de perception multimodale, en particulier pour les petits objets. Sur cette base, nous équipons en outre le modèle de capacités de co-référence visuelle et linguistique grâce à un tokenizer visuel plug-and-play. Il permet une interaction conviviale avec des images cibles flexibles, des textes libres et même des coordonnées. Les expériences démontrent que Griffon v2 peut localiser tout objet d'intérêt avec des références visuelles et textuelles, atteindre des performances de pointe sur les tâches de REC, de phrase grounding et de REG, et surpasser les modèles experts en détection d'objets et en comptage d'objets. Les données, codes et modèles seront publiés sur https://github.com/jefferyZhan/Griffon.
English
Large Vision Language Models have achieved fine-grained object perception,
but the limitation of image resolution remains a significant obstacle to
surpass the performance of task-specific experts in complex and dense
scenarios. Such limitation further restricts the model's potential to achieve
nuanced visual and language referring in domains such as GUI Agents, Counting
and \etc. To address this issue, we introduce a unified high-resolution
generalist model, Griffon v2, enabling flexible object referring with visual
and textual prompts. To efficiently scaling up image resolution, we design a
simple and lightweight down-sampling projector to overcome the input tokens
constraint in Large Language Models. This design inherently preserves the
complete contexts and fine details, and significantly improves multimodal
perception ability especially for small objects. Building upon this, we further
equip the model with visual-language co-referring capabilities through a
plug-and-play visual tokenizer. It enables user-friendly interaction with
flexible target images, free-form texts and even coordinates. Experiments
demonstrate that Griffon v2 can localize any objects of interest with visual
and textual referring, achieve state-of-the-art performance on REC, phrase
grounding, and REG tasks, and outperform expert models in object detection and
object counting. Data, codes and models will be released at
https://github.com/jefferyZhan/Griffon.Summary
AI-Generated Summary