GPT4RoI: Ajuste por Instrução de Modelo de Linguagem de Grande Escala em Regiões de Interesse

Resumo

O ajuste por instrução de grandes modelos de linguagem (LLMs) em pares de imagem-texto alcançou habilidades multimodais visão-linguagem sem precedentes. No entanto, seus alinhamentos visão-linguagem são construídos apenas em nível de imagem, e a falta de alinhamento em nível de região limita seus avanços para uma compreensão multimodal mais refinada. Neste artigo, propomos o ajuste por instrução em regiões de interesse. O design principal é reformular a caixa delimitadora como o formato de instrução espacial. As sequências intercaladas de características visuais extraídas pela instrução espacial e o embedding de linguagem são inseridos no LLM e treinados em dados de região-texto transformados no formato de ajuste por instrução. Nosso modelo visão-linguagem em nível de região, denominado GPT4RoI, traz uma experiência conversacional e interativa totalmente nova, indo além da compreensão em nível de imagem. (1) Controlabilidade: Os usuários podem interagir com nosso modelo tanto por linguagem quanto por instruções espaciais para ajustar flexivelmente o nível de detalhe da pergunta. (2) Capacidades: Nosso modelo suporta não apenas instruções espaciais de região única, mas também de múltiplas regiões. Isso desbloqueia mais capacidades multimodais em nível de região, como legendas detalhadas de regiões e raciocínios complexos sobre regiões. (3) Composição: Qualquer detector de objetos disponível pode ser um provedor de instruções espaciais para extrair atributos informativos de objetos de nosso modelo, como cor, forma, material, ação, relação com outros objetos, etc. O código, dados e demonstração podem ser encontrados em https://github.com/jshilong/GPT4RoI.

English

Instruction tuning large language model (LLM) on image-text pairs has achieved unprecedented vision-language multimodal abilities. However, their vision-language alignments are only built on image-level, the lack of region-level alignment limits their advancements to fine-grained multimodal understanding. In this paper, we propose instruction tuning on region-of-interest. The key design is to reformulate the bounding box as the format of spatial instruction. The interleaved sequences of visual features extracted by the spatial instruction and the language embedding are input to LLM, and trained on the transformed region-text data in instruction tuning format. Our region-level vision-language model, termed as GPT4RoI, brings brand new conversational and interactive experience beyond image-level understanding. (1) Controllability: Users can interact with our model by both language and spatial instructions to flexibly adjust the detail level of the question. (2) Capacities: Our model supports not only single-region spatial instruction but also multi-region. This unlocks more region-level multimodal capacities such as detailed region caption and complex region reasoning. (3) Composition: Any off-the-shelf object detector can be a spatial instruction provider so as to mine informative object attributes from our model, like color, shape, material, action, relation to other objects, etc. The code, data, and demo can be found at https://github.com/jshilong/GPT4RoI.

GPT4RoI: Ajuste por Instrução de Modelo de Linguagem de Grande Escala em Regiões de Interesse

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Resumo

Support