GPT4RoI: 관심 영역 기반 대규모 언어 모델의 지시 튜닝
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
저자: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
초록
이미지-텍스트 쌍에 대한 대규모 언어 모델(LLM)의 지시 튜닝은 전례 없는 시각-언어 다중모달 능력을 달성했습니다. 그러나 이들의 시각-언어 정렬은 이미지 수준에만 구축되어 있으며, 영역 수준 정렬의 부재는 세밀한 다중모달 이해로의 발전을 제한합니다. 본 논문에서는 관심 영역(Region-of-Interest)에 대한 지시 튜닝을 제안합니다. 핵심 설계는 바운딩 박스를 공간적 지시 형식으로 재구성하는 것입니다. 공간적 지시로 추출된 시각적 특징과 언어 임베딩이 교차된 시퀀스는 LLM에 입력되며, 지시 튜닝 형식으로 변환된 영역-텍스트 데이터에 대해 학습됩니다. 우리의 영역 수준 시각-언어 모델인 GPT4RoI는 이미지 수준 이해를 넘어서는 새로운 대화형 및 상호작용 경험을 제공합니다. (1) 제어 가능성: 사용자는 언어와 공간적 지시를 모두 사용하여 모델과 상호작용하며 질문의 세부 수준을 유연하게 조정할 수 있습니다. (2) 능력: 우리의 모델은 단일 영역 공간적 지시뿐만 아니라 다중 영역도 지원합니다. 이를 통해 세부 영역 캡션 및 복잡한 영역 추론과 같은 더 많은 영역 수준 다중모달 능력이 해제됩니다. (3) 구성: 기성 객체 탐지기는 공간적 지시 제공자로 사용될 수 있어, 우리 모델에서 색상, 형태, 재질, 동작, 다른 객체와의 관계 등과 같은 유익한 객체 속성을 추출할 수 있습니다. 코드, 데이터 및 데모는 https://github.com/jshilong/GPT4RoI에서 확인할 수 있습니다.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.