VisionLLM: Крупная языковая модель также является открытым декодером для задач, ориентированных на зрительное восприятие
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
May 18, 2023
Авторы: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI
Аннотация
Крупные языковые модели (LLM) значительно ускорили прогресс в направлении искусственного общего интеллекта (AGI), демонстрируя впечатляющую способность к выполнению задач с нулевым обучением, адаптированных под пользователя, что наделяет их огромным потенциалом в различных приложениях. Однако в области компьютерного зрения, несмотря на наличие множества мощных базовых моделей для обработки изображений (VFMs), они по-прежнему ограничены задачами предопределённого формата, с трудом достигая универсальных возможностей LLM. В данной работе мы представляем основанную на LLM структуру для задач, ориентированных на обработку изображений, под названием VisionLLM. Эта структура предлагает единый подход к задачам в области зрения и языка, рассматривая изображения как иностранный язык и согласовывая задачи, связанные с обработкой изображений, с языковыми задачами, которые могут быть гибко определены и управляемы с помощью языковых инструкций. Затем декодер на основе LLM может делать соответствующие прогнозы для открытых задач на основе этих инструкций. Многочисленные эксперименты показывают, что предложенная VisionLLM способна достигать различных уровней настройки задач через языковые инструкции — от детальной настройки на уровне объектов до более общей настройки на уровне задач, — демонстрируя при этом хорошие результаты. Примечательно, что с использованием универсальной структуры на основе LLM наша модель достигает более 60% mAP на наборе данных COCO, что сопоставимо с моделями, специализированными на детекции. Мы надеемся, что эта модель сможет установить новый стандарт для универсальных моделей в области зрения и языка. Демонстрация будет доступна по адресу https://github.com/OpenGVLab/InternGPT. Код будет опубликован на https://github.com/OpenGVLab/VisionLLM.
English
Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.