VisionLLM: Groot Taalmodel is ook een Open-Eindige Decoder voor Visueel-Gecentreerde Taken

Samenvatting

Grote taalmodellen (LLM's) hebben de vooruitgang naar kunstmatige algemene intelligentie (AGI) aanzienlijk versneld, met hun indrukwekkende zero-shot-capaciteit voor gebruikersspecifieke taken, wat hen een enorm potentieel geeft voor een breed scala aan toepassingen. Op het gebied van computervisie zijn echter, ondanks de beschikbaarheid van talrijke krachtige visuele basis modellen (VFM's), deze nog steeds beperkt tot taken in een vooraf gedefinieerde vorm, en hebben ze moeite om de open-einde taakmogelijkheden van LLM's te evenaren. In dit werk presenteren we een LLM-gebaseerd framework voor visiegerichte taken, genaamd VisionLLM. Dit framework biedt een uniform perspectief voor visie- en taal taken door afbeeldingen te behandelen als een vreemde taal en visiegerichte taken af te stemmen op taal taken die flexibel kunnen worden gedefinieerd en beheerd met behulp van taal instructies. Een LLM-gebaseerde decoder kan vervolgens geschikte voorspellingen maken op basis van deze instructies voor open-einde taken. Uitgebreide experimenten tonen aan dat het voorgestelde VisionLLM verschillende niveaus van taakcustomisatie kan bereiken via taal instructies, van fijnmazige objectniveau tot grofmazige taakniveau customisatie, allemaal met goede resultaten. Het is opmerkelijk dat, met een generalistisch LLM-gebaseerd framework, ons model meer dan 60\% mAP kan bereiken op COCO, vergelijkbaar met detectie-specifieke modellen. We hopen dat dit model een nieuwe basislijn kan vormen voor generalistische visie- en taalmodellen. De demo zal worden vrijgegeven op basis van https://github.com/OpenGVLab/InternGPT. De code zal worden vrijgegeven op https://github.com/OpenGVLab/VisionLLM.

English

Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.

VisionLLM: Groot Taalmodel is ook een Open-Eindige Decoder voor Visueel-Gecentreerde Taken

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Samenvatting

Support