ChatPaper.aiChatPaper

MiniGPT-v2: groot taalmodel als een uniforme interface voor multitask-leren in visie en taal

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

October 14, 2023
Auteurs: Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
cs.AI

Samenvatting

Grote taalmodelen hebben hun opmerkelijke capaciteiten getoond als een algemene interface voor diverse taalgerelateerde toepassingen. Gemotiveerd door dit, streven we ernaar om een uniforme interface te bouwen voor het uitvoeren van veel visueel-taalkundige taken, waaronder beeldbeschrijving, visuele vraagbeantwoording en visuele verankering, onder andere. De uitdaging is om één model te gebruiken voor het effectief uitvoeren van diverse visueel-taalkundige taken met eenvoudige multimodale instructies. Met dit doel voor ogen introduceren we MiniGPT-v2, een model dat kan worden beschouwd als een uniforme interface voor het beter afhandelen van verschillende visueel-taalkundige taken. We stellen voor om unieke identificatoren te gebruiken voor verschillende taken tijdens het trainen van het model. Deze identificatoren stellen ons model in staat om elke taakinstructie moeiteloos beter te onderscheiden en verbeteren ook de leerefficiëntie van het model voor elke taak. Na de driedelige training tonen de experimentele resultaten aan dat MiniGPT-v2 sterke prestaties behaalt op veel benchmarks voor visuele vraagbeantwoording en visuele verankering in vergelijking met andere generalistische visueel-taalkundige modellen. Ons model en code zijn beschikbaar op https://minigpt-v2.github.io/
English
Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/
PDF211December 15, 2024