GPT4RoI: Instructieafstemming van een groot taalmodel op regio's van belang

Samenvatting

Het afstemmen van grote taalmodellen (LLM) op instructies met behulp van beeld-tekstparen heeft ongekende visueel-taalkundige multimodale vaardigheden bereikt. Hun visueel-taalkundige uitlijningen zijn echter alleen op beeldniveau gebouwd, en het ontbreken van uitlijning op regioniveau beperkt hun vooruitgang in fijnmazige multimodale begrip. In dit artikel stellen we het afstemmen van instructies op regio's van belang voor. De belangrijkste ontwerpkeuze is het herformuleren van de begrenzingsbox als de vorm van ruimtelijke instructie. De afgewisselde reeksen van visuele kenmerken die door de ruimtelijke instructie worden geëxtraheerd en de taalkundige inbedding worden ingevoerd in het LLM, en getraind op de getransformeerde regio-tekstgegevens in het formaat van instructieafstemming. Ons visueel-taalkundige model op regioniveau, genaamd GPT4RoI, biedt een geheel nieuwe conversatie- en interactie-ervaring die verder gaat dan begrip op beeldniveau. (1) Beheersbaarheid: Gebruikers kunnen met ons model interacteren via zowel taal als ruimtelijke instructies om flexibel het detailniveau van de vraag aan te passen. (2) Capaciteiten: Ons model ondersteunt niet alleen ruimtelijke instructies voor één regio, maar ook voor meerdere regio's. Dit ontgrendelt meer multimodale capaciteiten op regioniveau, zoals gedetailleerde regiobeschrijvingen en complexe regioredenering. (3) Samenstelling: Elke kant-en-klare objectdetector kan een aanbieder van ruimtelijke instructies zijn om informatieve objectattributen uit ons model te halen, zoals kleur, vorm, materiaal, actie, relatie met andere objecten, enz. De code, gegevens en demo zijn te vinden op https://github.com/jshilong/GPT4RoI.

English

Instruction tuning large language model (LLM) on image-text pairs has achieved unprecedented vision-language multimodal abilities. However, their vision-language alignments are only built on image-level, the lack of region-level alignment limits their advancements to fine-grained multimodal understanding. In this paper, we propose instruction tuning on region-of-interest. The key design is to reformulate the bounding box as the format of spatial instruction. The interleaved sequences of visual features extracted by the spatial instruction and the language embedding are input to LLM, and trained on the transformed region-text data in instruction tuning format. Our region-level vision-language model, termed as GPT4RoI, brings brand new conversational and interactive experience beyond image-level understanding. (1) Controllability: Users can interact with our model by both language and spatial instructions to flexibly adjust the detail level of the question. (2) Capacities: Our model supports not only single-region spatial instruction but also multi-region. This unlocks more region-level multimodal capacities such as detailed region caption and complex region reasoning. (3) Composition: Any off-the-shelf object detector can be a spatial instruction provider so as to mine informative object attributes from our model, like color, shape, material, action, relation to other objects, etc. The code, data, and demo can be found at https://github.com/jshilong/GPT4RoI.

GPT4RoI: Instructieafstemming van een groot taalmodel op regio's van belang

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Samenvatting

Support