ChatPaper.aiChatPaper

MiniGPT-v2: modello linguistico di grandi dimensioni come interfaccia unificata per l'apprendimento multi-task in ambito visione-linguaggio

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

October 14, 2023
Autori: Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
cs.AI

Abstract

I grandi modelli linguistici hanno dimostrato le loro straordinarie capacità come interfaccia generale per varie applicazioni legate al linguaggio. Motivati da ciò, ci proponiamo di costruire un'interfaccia unificata per completare numerosi compiti di visione e linguaggio, tra cui la descrizione di immagini, la risposta a domande visive e il grounding visivo, tra gli altri. La sfida consiste nell'utilizzare un singolo modello per eseguire efficacemente compiti diversificati di visione e linguaggio con semplici istruzioni multimodali. Verso questo obiettivo, introduciamo MiniGPT-v2, un modello che può essere considerato come un'interfaccia unificata per gestire meglio vari compiti di visione e linguaggio. Proponiamo l'uso di identificatori unici per diversi compiti durante l'addestramento del modello. Questi identificatori consentono al nostro modello di distinguere facilmente ogni istruzione di compito e migliorano anche l'efficienza di apprendimento del modello per ciascun compito. Dopo l'addestramento in tre fasi, i risultati sperimentali mostrano che MiniGPT-v2 raggiunge prestazioni solide su molti benchmark di risposta a domande visive e grounding visivo rispetto ad altri modelli generalisti di visione e linguaggio. Il nostro modello e i codici sono disponibili all'indirizzo https://minigpt-v2.github.io/
English
Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/
PDF211December 15, 2024