ChatPaper.aiChatPaper

VisionLLM: Großes Sprachmodell als universeller Decoder für visionzentrierte Aufgaben

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

May 18, 2023
Autoren: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben den Fortschritt in Richtung künstlicher allgemeiner Intelligenz (AGI) deutlich beschleunigt, da sie durch ihre beeindruckende Zero-Shot-Fähigkeit für benutzerspezifische Aufgaben ein enormes Potenzial in einer Vielzahl von Anwendungen besitzen. Im Bereich der Computer Vision hingegen, trotz der Verfügbarkeit zahlreicher leistungsstarker Vision-Foundation-Modelle (VFMs), sind diese immer noch auf Aufgaben in einer vordefinierten Form beschränkt und haben Schwierigkeiten, die offenen Aufgabenfähigkeiten von LLMs zu erreichen. In dieser Arbeit stellen wir ein LLM-basiertes Framework für visionzentrierte Aufgaben vor, das als VisionLLM bezeichnet wird. Dieses Framework bietet eine einheitliche Perspektive für Vision- und Sprachaufgaben, indem Bilder als Fremdsprache behandelt und visionzentrierte Aufgaben mit Sprachaufgaben abgeglichen werden, die flexibel durch Sprachanweisungen definiert und verwaltet werden können. Ein LLM-basierter Decoder kann dann basierend auf diesen Anweisungen geeignete Vorhersagen für offene Aufgaben treffen. Umfangreiche Experimente zeigen, dass das vorgeschlagene VisionLLM durch Sprachanweisungen unterschiedliche Grade der Aufgabenanpassung erreichen kann, von feinkörniger Objektebene bis hin zu grobkörniger Aufgabenebene, alles mit guten Ergebnissen. Es ist bemerkenswert, dass unser Modell mit einem generalistischen LLM-basierten Framework über 60\% mAP auf COCO erreichen kann, was mit detektionsspezifischen Modellen vergleichbar ist. Wir hoffen, dass dieses Modell einen neuen Maßstab für generalistische Vision- und Sprachmodelle setzen kann. Die Demo wird auf https://github.com/OpenGVLab/InternGPT veröffentlicht. Der Code wird auf https://github.com/OpenGVLab/VisionLLM veröffentlicht.
English
Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
PDF35December 15, 2024