GPT4RoI: Ajuste por Instrução de Modelo de Linguagem de Grande Escala em Regiões de Interesse
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Autores: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Resumo
O ajuste por instrução de grandes modelos de linguagem (LLMs) em pares de imagem-texto alcançou habilidades multimodais visão-linguagem sem precedentes. No entanto, seus alinhamentos visão-linguagem são construídos apenas em nível de imagem, e a falta de alinhamento em nível de região limita seus avanços para uma compreensão multimodal mais refinada. Neste artigo, propomos o ajuste por instrução em regiões de interesse. O design principal é reformular a caixa delimitadora como o formato de instrução espacial. As sequências intercaladas de características visuais extraídas pela instrução espacial e o embedding de linguagem são inseridos no LLM e treinados em dados de região-texto transformados no formato de ajuste por instrução. Nosso modelo visão-linguagem em nível de região, denominado GPT4RoI, traz uma experiência conversacional e interativa totalmente nova, indo além da compreensão em nível de imagem. (1) Controlabilidade: Os usuários podem interagir com nosso modelo tanto por linguagem quanto por instruções espaciais para ajustar flexivelmente o nível de detalhe da pergunta. (2) Capacidades: Nosso modelo suporta não apenas instruções espaciais de região única, mas também de múltiplas regiões. Isso desbloqueia mais capacidades multimodais em nível de região, como legendas detalhadas de regiões e raciocínios complexos sobre regiões. (3) Composição: Qualquer detector de objetos disponível pode ser um provedor de instruções espaciais para extrair atributos informativos de objetos de nosso modelo, como cor, forma, material, ação, relação com outros objetos, etc. O código, dados e demonstração podem ser encontrados em https://github.com/jshilong/GPT4RoI.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.