GPT4RoI : Réglage par instructions d'un modèle de langage de grande taille sur des régions d'intérêt
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Auteurs: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Résumé
L'ajustement par instruction des grands modèles de langage (LLM) sur des paires image-texte a permis d'atteindre des capacités multimodales vision-langage sans précédent. Cependant, leurs alignements vision-langage sont uniquement établis au niveau de l'image, et l'absence d'alignement au niveau des régions limite leurs progrès dans la compréhension multimodale fine. Dans cet article, nous proposons un ajustement par instruction sur des régions d'intérêt. L'idée clé est de reformuler la boîte englobante sous la forme d'une instruction spatiale. Les séquences entrelacées de caractéristiques visuelles extraites par l'instruction spatiale et l'encodage linguistique sont introduites dans le LLM, puis entraînées sur des données région-texte transformées au format d'ajustement par instruction. Notre modèle vision-langage au niveau des régions, appelé GPT4RoI, offre une expérience conversationnelle et interactive entièrement nouvelle, dépassant la compréhension au niveau de l'image. (1) Contrôlabilité : Les utilisateurs peuvent interagir avec notre modèle à la fois par le langage et les instructions spatiales pour ajuster de manière flexible le niveau de détail de la question. (2) Capacités : Notre modèle prend en charge non seulement les instructions spatiales à région unique, mais aussi les instructions multi-régions. Cela débloque davantage de capacités multimodales au niveau des régions, telles que la description détaillée de régions et le raisonnement complexe sur les régions. (3) Composition : Tout détecteur d'objets prêt à l'emploi peut servir de fournisseur d'instructions spatiales afin d'extraire des attributs informatifs des objets de notre modèle, comme la couleur, la forme, le matériau, l'action, la relation avec d'autres objets, etc. Le code, les données et la démonstration sont disponibles à l'adresse https://github.com/jshilong/GPT4RoI.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.