GPT4RoI: Instruktionsfeinabstimmung eines großen Sprachmodells auf Regionen von Interesse
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Autoren: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Zusammenfassung
Das Instruction Tuning von großen Sprachmodellen (LLMs) auf Bild-Text-Paaren hat beispiellose visuell-sprachliche multimodale Fähigkeiten erreicht. Allerdings basieren ihre visuell-sprachlichen Ausrichtungen nur auf Bildebene, und das Fehlen einer regionsbasierten Ausrichtung begrenzt ihre Fortschritte im Bereich des feingranularen multimodalen Verständnisses. In diesem Artikel schlagen wir das Instruction Tuning auf Regionen von Interesse vor. Der Schlüsselentwurf besteht darin, die Begrenzungsbox als Format der räumlichen Anweisung neu zu formulieren. Die verschachtelten Sequenzen von visuellen Merkmalen, die durch die räumliche Anweisung extrahiert werden, und die Spracheinbettung werden in das LLM eingegeben und auf den transformierten Region-Text-Daten im Instruction-Tuning-Format trainiert. Unser regionsbasiertes visuell-sprachliches Modell, genannt GPT4RoI, bietet eine völlig neue konversationelle und interaktive Erfahrung, die über das Bildverständnis hinausgeht. (1) Steuerbarkeit: Benutzer können mit unserem Modell sowohl durch Sprache als auch durch räumliche Anweisungen interagieren, um den Detaillierungsgrad der Frage flexibel anzupassen. (2) Fähigkeiten: Unser Modell unterstützt nicht nur einzelne regionale räumliche Anweisungen, sondern auch Multi-Region-Anweisungen. Dies erschließt weitere regionsbasierte multimodale Fähigkeiten wie detaillierte Regionenbeschreibungen und komplexe Regionenlogik. (3) Zusammensetzung: Jeder verfügbare Objektdetektor kann als Anbieter räumlicher Anweisungen fungieren, um informative Objektattribute wie Farbe, Form, Material, Aktion, Beziehung zu anderen Objekten usw. aus unserem Modell zu extrahieren. Der Code, die Daten und die Demo sind unter https://github.com/jshilong/GPT4RoI verfügbar.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.