VisionLLM: Il modello linguistico di grandi dimensioni è anche un decoder aperto per compiti incentrati sulla visione
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
May 18, 2023
Autori: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno accelerato significativamente il progresso verso l'intelligenza artificiale generale (AGI), grazie alla loro impressionante capacità zero-shot per attività personalizzate per l'utente, conferendo loro un enorme potenziale in una vasta gamma di applicazioni. Tuttavia, nel campo della visione artificiale, nonostante la disponibilità di numerosi potenti modelli di base per la visione (VFM), questi sono ancora limitati a compiti in una forma predefinita, faticando a eguagliare le capacità aperte e flessibili degli LLM. In questo lavoro, presentiamo un framework basato su LLM per attività centrate sulla visione, denominato VisionLLM. Questo framework offre una prospettiva unificata per i compiti di visione e linguaggio trattando le immagini come una lingua straniera e allineando le attività centrate sulla visione con i compiti linguistici che possono essere definiti e gestiti in modo flessibile utilizzando istruzioni linguistiche. Un decoder basato su LLM può quindi fare previsioni appropriate basate su queste istruzioni per compiti aperti. Esperimenti estesi dimostrano che il VisionLLM proposto può raggiungere diversi livelli di personalizzazione dei compiti attraverso istruzioni linguistiche, dalla personalizzazione a livello di oggetto fine a quella a livello di compito grossolano, tutti con buoni risultati. È degno di nota che, con un framework generalista basato su LLM, il nostro modello può raggiungere oltre il 60\% di mAP su COCO, alla pari con modelli specifici per il rilevamento. Speriamo che questo modello possa stabilire un nuovo punto di riferimento per i modelli generalisti di visione e linguaggio. La demo sarà rilasciata su https://github.com/OpenGVLab/InternGPT. Il codice sarà rilasciato su https://github.com/OpenGVLab/VisionLLM.
English
Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.