GPT4RoI: Sintonizzazione su Istruzioni di Modelli Linguistici di Grande Scala su Regioni di Interesse
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Autori: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Abstract
L'instruction tuning di modelli linguistici di grandi dimensioni (LLM) su coppie immagine-testo ha raggiunto capacità multimodali visione-linguaggio senza precedenti. Tuttavia, i loro allineamenti visione-linguaggio sono costruiti solo a livello di immagine, e la mancanza di un allineamento a livello di regione limita i loro progressi verso una comprensione multimodale fine. In questo articolo, proponiamo l'instruction tuning su regioni di interesse. L'idea chiave è riformulare il bounding box come formato di istruzione spaziale. Le sequenze intercalate di caratteristiche visive estratte dall'istruzione spaziale e l'embedding linguistico vengono inserite nel LLM, e addestrate sui dati regione-testo trasformati in formato instruction tuning. Il nostro modello visione-linguaggio a livello di regione, denominato GPT4RoI, offre un'esperienza conversazionale e interattiva completamente nuova, andando oltre la comprensione a livello di immagine. (1) Controllabilità: Gli utenti possono interagire con il nostro modello sia tramite istruzioni linguistiche che spaziali per regolare flessibilmente il livello di dettaglio della domanda. (2) Capacità: Il nostro modello supporta non solo istruzioni spaziali a singola regione, ma anche a più regioni. Ciò sblocca ulteriori capacità multimodali a livello di regione, come la descrizione dettagliata di regioni e il ragionamento complesso su regioni. (3) Composizione: Qualsiasi rilevatore di oggetti disponibile può fungere da fornitore di istruzioni spaziali, permettendo di estrarre dal nostro modello attributi informativi degli oggetti, come colore, forma, materiale, azione, relazione con altri oggetti, ecc. Il codice, i dati e la demo sono disponibili su https://github.com/jshilong/GPT4RoI.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.