GPT4RoI: Sintonizzazione su Istruzioni di Modelli Linguistici di Grande Scala su Regioni di Interesse

Abstract

L'instruction tuning di modelli linguistici di grandi dimensioni (LLM) su coppie immagine-testo ha raggiunto capacità multimodali visione-linguaggio senza precedenti. Tuttavia, i loro allineamenti visione-linguaggio sono costruiti solo a livello di immagine, e la mancanza di un allineamento a livello di regione limita i loro progressi verso una comprensione multimodale fine. In questo articolo, proponiamo l'instruction tuning su regioni di interesse. L'idea chiave è riformulare il bounding box come formato di istruzione spaziale. Le sequenze intercalate di caratteristiche visive estratte dall'istruzione spaziale e l'embedding linguistico vengono inserite nel LLM, e addestrate sui dati regione-testo trasformati in formato instruction tuning. Il nostro modello visione-linguaggio a livello di regione, denominato GPT4RoI, offre un'esperienza conversazionale e interattiva completamente nuova, andando oltre la comprensione a livello di immagine. (1) Controllabilità: Gli utenti possono interagire con il nostro modello sia tramite istruzioni linguistiche che spaziali per regolare flessibilmente il livello di dettaglio della domanda. (2) Capacità: Il nostro modello supporta non solo istruzioni spaziali a singola regione, ma anche a più regioni. Ciò sblocca ulteriori capacità multimodali a livello di regione, come la descrizione dettagliata di regioni e il ragionamento complesso su regioni. (3) Composizione: Qualsiasi rilevatore di oggetti disponibile può fungere da fornitore di istruzioni spaziali, permettendo di estrarre dal nostro modello attributi informativi degli oggetti, come colore, forma, materiale, azione, relazione con altri oggetti, ecc. Il codice, i dati e la demo sono disponibili su https://github.com/jshilong/GPT4RoI.

English

Instruction tuning large language model (LLM) on image-text pairs has achieved unprecedented vision-language multimodal abilities. However, their vision-language alignments are only built on image-level, the lack of region-level alignment limits their advancements to fine-grained multimodal understanding. In this paper, we propose instruction tuning on region-of-interest. The key design is to reformulate the bounding box as the format of spatial instruction. The interleaved sequences of visual features extracted by the spatial instruction and the language embedding are input to LLM, and trained on the transformed region-text data in instruction tuning format. Our region-level vision-language model, termed as GPT4RoI, brings brand new conversational and interactive experience beyond image-level understanding. (1) Controllability: Users can interact with our model by both language and spatial instructions to flexibly adjust the detail level of the question. (2) Capacities: Our model supports not only single-region spatial instruction but also multi-region. This unlocks more region-level multimodal capacities such as detailed region caption and complex region reasoning. (3) Composition: Any off-the-shelf object detector can be a spatial instruction provider so as to mine informative object attributes from our model, like color, shape, material, action, relation to other objects, etc. The code, data, and demo can be found at https://github.com/jshilong/GPT4RoI.

GPT4RoI: Sintonizzazione su Istruzioni di Modelli Linguistici di Grande Scala su Regioni di Interesse

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Abstract

Support