ChatPaper.aiChatPaper

VisionLLM : Le modèle de langage étendu est également un décodeur ouvert pour les tâches centrées sur la vision

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

May 18, 2023
Auteurs: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont considérablement accéléré les progrès vers l'intelligence artificielle générale (AGI), grâce à leur impressionnante capacité en zero-shot pour des tâches adaptées aux utilisateurs, leur conférant un immense potentiel dans une variété d'applications. Cependant, dans le domaine de la vision par ordinateur, malgré la disponibilité de nombreux modèles de base visuels (VFMs) puissants, ils restent limités à des tâches dans un format prédéfini, peinant à égaler les capacités de tâches ouvertes des LLMs. Dans ce travail, nous présentons un framework basé sur les LLMs pour les tâches centrées sur la vision, appelé VisionLLM. Ce framework offre une perspective unifiée pour les tâches de vision et de langage en traitant les images comme un langage étranger et en alignant les tâches centrées sur la vision avec des tâches de langage qui peuvent être définies et gérées de manière flexible à l'aide d'instructions linguistiques. Un décodeur basé sur les LLMs peut ensuite faire des prédictions appropriées en fonction de ces instructions pour des tâches ouvertes. Des expériences approfondies montrent que le VisionLLM proposé peut atteindre différents niveaux de personnalisation des tâches grâce aux instructions linguistiques, allant de la personnalisation fine au niveau des objets à la personnalisation grossière au niveau des tâches, le tout avec de bons résultats. Il est à noter qu'avec un framework généraliste basé sur les LLMs, notre modèle peut atteindre plus de 60 % de mAP sur COCO, à égalité avec les modèles spécifiques à la détection. Nous espérons que ce modèle pourra établir une nouvelle référence pour les modèles généralistes de vision et de langage. La démo sera publiée sur https://github.com/OpenGVLab/InternGPT. Le code sera publié sur https://github.com/OpenGVLab/VisionLLM.
English
Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
PDF35December 15, 2024