GPT4RoI: Инструктивная настройка крупной языковой модели на области интереса
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Авторы: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Аннотация
Инструктивная настройка больших языковых моделей (LLM) на парах изображение-текст достигла беспрецедентных способностей в области мультимодального взаимодействия между зрением и языком. Однако их выравнивание между зрением и языком ограничивается уровнем изображения, а отсутствие выравнивания на уровне регионов ограничивает их прогресс в тонком мультимодальном понимании. В данной статье мы предлагаем инструктивную настройку на основе областей интереса. Ключевая идея заключается в реформулировании ограничивающего прямоугольника в формате пространственной инструкции. Перемежающиеся последовательности визуальных признаков, извлеченных с помощью пространственной инструкции, и языкового представления подаются на вход LLM и обучаются на преобразованных данных регион-текст в формате инструктивной настройки. Наша модель уровня регионов для взаимодействия зрения и языка, названная GPT4RoI, предлагает совершенно новый опыт общения и взаимодействия, выходящий за рамки понимания на уровне изображения. (1) Управляемость: пользователи могут взаимодействовать с нашей моделью как с помощью языковых, так и пространственных инструкций, чтобы гибко регулировать уровень детализации вопроса. (2) Возможности: наша модель поддерживает не только однократные пространственные инструкции, но и многократные. Это открывает дополнительные мультимодальные возможности на уровне регионов, такие как детальное описание регионов и сложное рассуждение о регионах. (3) Композиция: любой готовый детектор объектов может выступать в роли поставщика пространственных инструкций, что позволяет извлекать информативные атрибуты объектов из нашей модели, такие как цвет, форма, материал, действия, отношения с другими объектами и т.д. Код, данные и демонстрация доступны по адресу https://github.com/jshilong/GPT4RoI.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.