VisionLLM: O Modelo de Linguagem de Grande Porte também é um Decodificador Aberto para Tarefas Centradas em Visão
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
May 18, 2023
Autores: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) têm acelerado significativamente o progresso em direção à inteligência artificial geral (AGI), com sua impressionante capacidade de zero-shot para tarefas personalizadas pelo usuário, dotando-os de um imenso potencial em uma variedade de aplicações. No entanto, no campo da visão computacional, apesar da disponibilidade de numerosos modelos de base de visão (VFMs) poderosos, eles ainda estão restritos a tarefas em um formato pré-definido, lutando para igualar as capacidades de tarefas abertas dos LLMs. Neste trabalho, apresentamos um framework baseado em LLM para tarefas centradas em visão, denominado VisionLLM. Este framework oferece uma perspectiva unificada para tarefas de visão e linguagem, tratando imagens como uma linguagem estrangeira e alinhando tarefas centradas em visão com tarefas de linguagem que podem ser flexivelmente definidas e gerenciadas usando instruções de linguagem. Um decodificador baseado em LLM pode então fazer previsões apropriadas com base nessas instruções para tarefas abertas. Experimentos extensivos mostram que o VisionLLM proposto pode alcançar diferentes níveis de personalização de tarefas por meio de instruções de linguagem, desde a personalização em nível de objeto, mais granular, até a personalização em nível de tarefa, mais abrangente, todos com bons resultados. É notável que, com um framework generalista baseado em LLM, nosso modelo pode alcançar mais de 60\% de mAP no COCO, em paridade com modelos específicos para detecção. Esperamos que este modelo possa estabelecer uma nova referência para modelos generalistas de visão e linguagem. A demonstração será lançada com base em https://github.com/OpenGVLab/InternGPT. O código será lançado em https://github.com/OpenGVLab/VisionLLM.
English
Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.