VisionLLM: El Modelo de Lenguaje Grande también es un Decodificador de Final Abierto para Tareas Centradas en la Visión
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
May 18, 2023
Autores: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han acelerado notablemente el progreso hacia la inteligencia artificial general (AGI), gracias a su impresionante capacidad de zero-shot para tareas personalizadas por el usuario, lo que les otorga un enorme potencial en una amplia gama de aplicaciones. Sin embargo, en el campo de la visión por computadora, a pesar de la disponibilidad de numerosos modelos base de visión (VFMs) potentes, estos aún están restringidos a tareas en un formato predefinido, luchando por igualar las capacidades de tareas abiertas de los LLMs. En este trabajo, presentamos un marco basado en LLMs para tareas centradas en la visión, denominado VisionLLM. Este marco proporciona una perspectiva unificada para tareas de visión y lenguaje al tratar las imágenes como un lenguaje extranjero y alinear las tareas centradas en la visión con tareas de lenguaje que pueden definirse y gestionarse de manera flexible mediante instrucciones de lenguaje. Un decodificador basado en LLMs puede entonces hacer predicciones apropiadas basadas en estas instrucciones para tareas abiertas. Experimentos extensos muestran que el VisionLLM propuesto puede lograr diferentes niveles de personalización de tareas a través de instrucciones de lenguaje, desde la personalización a nivel de objeto de grano fino hasta la personalización a nivel de tarea de grano grueso, todo con buenos resultados. Es destacable que, con un marco generalista basado en LLMs, nuestro modelo puede alcanzar más del 60\% de mAP en COCO, a la par con modelos específicos de detección. Esperamos que este modelo pueda establecer un nuevo punto de referencia para modelos generalistas de visión y lenguaje. La demostración se lanzará basada en https://github.com/OpenGVLab/InternGPT. El código se lanzará en https://github.com/OpenGVLab/VisionLLM.
English
Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.