Allineamento di Modelli Multimodali di Grande Scala con Robust Instruction Tuning
Aligning Large Multi-Modal Model with Robust Instruction Tuning
June 26, 2023
Autori: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI
Abstract
Nonostante i progressi promettenti nei compiti multimodali, gli attuali modelli multimodali di grandi dimensioni (LMM) tendono a generare descrizioni inconsistenti rispetto all'immagine associata e alle istruzioni umane. Questo articolo affronta il problema introducendo il primo dataset ampio e diversificato per il tuning delle istruzioni visive, denominato Large-scale Robust Visual (LRV)-Instruction. Il nostro dataset è composto da 120k istruzioni visive generate da GPT4, che coprono 16 compiti di visione e linguaggio con istruzioni e risposte aperte. A differenza degli studi esistenti che si concentrano principalmente su campioni di istruzioni positive, progettiamo LRV-Instruction per includere sia istruzioni positive che negative per un tuning delle istruzioni visive più robusto. Le nostre istruzioni negative sono progettate a due livelli semantici: (i) Manipolazione di Elementi Inesistenti e (ii) Manipolazione di Elementi Esistenti. Per misurare efficacemente l'allucinazione generata dagli LMM, proponiamo GPT4-Assisted Visual Instruction Evaluation (GAVIE), un nuovo approccio per valutare il tuning delle istruzioni visive senza la necessità di risposte annotate manualmente e che può adattarsi a diversi formati di istruzione. Condividiamo esperimenti completi per investigare l'allucinazione degli LMM. I nostri risultati dimostrano che gli LMM esistenti mostrano un'allucinazione significativa quando presentati con le nostre istruzioni negative, in particolare con le istruzioni di Manipolazione di Elementi Esistenti. Inoltre, ottimizzando MiniGPT4 su LRV-Instruction, siamo riusciti a mitigare l'allucinazione migliorando le prestazioni su dataset pubblici utilizzando meno dati di addestramento rispetto ai metodi all'avanguardia. Inoltre, abbiamo osservato che un rapporto bilanciato di istanze positive e negative nei dati di addestramento porta a un modello più robusto. Il link del nostro progetto è disponibile all'indirizzo https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.