Het afstemmen van grote multimodale modellen met robuuste instructieafstemming
Aligning Large Multi-Modal Model with Robust Instruction Tuning
June 26, 2023
Auteurs: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI
Samenvatting
Ondanks de veelbelovende vooruitgang in multimodale taken, zijn huidige grote multimodale modellen (LMM) geneigd tot het hallucineren van inconsistente beschrijvingen ten opzichte van de bijbehorende afbeelding en menselijke instructies. Dit artikel behandelt dit probleem door de eerste grote en diverse visuele instructieafstemmingsdataset te introduceren, genaamd Large-scale Robust Visual (LRV)-Instruction. Onze dataset bestaat uit 120k visuele instructies gegenereerd door GPT4, die 16 visie-en-taal taken omvatten met open-einde instructies en antwoorden. In tegenstelling tot bestaande studies die zich voornamelijk richten op positieve instructievoorbeelden, ontwerpen wij LRV-Instruction om zowel positieve als negatieve instructies te bevatten voor robuustere visuele instructieafstemming. Onze negatieve instructies zijn ontworpen op twee semantische niveaus: (i) Manipulatie van niet-bestaande elementen en (ii) Manipulatie van bestaande elementen. Om de hallucinatie gegenereerd door LMMs efficiënt te meten, stellen wij GPT4-Assisted Visual Instruction Evaluation (GAVIE) voor, een nieuwe aanpak om visuele instructieafstemming te evalueren zonder de noodzaak van door mensen geannoteerde grondwaarheid-antwoorden en die zich kan aanpassen aan diverse instructieformaten. Wij voeren uitgebreide experimenten uit om de hallucinatie van LMMs te onderzoeken. Onze resultaten tonen aan dat bestaande LMMs significante hallucinatie vertonen wanneer zij worden gepresenteerd met onze negatieve instructies, met name bij Manipulatie van bestaande elementen instructies. Bovendien, door MiniGPT4 af te stemmen op LRV-Instruction, verminderen wij succesvol hallucinatie terwijl wij de prestaties op publieke datasets verbeteren met minder trainingsdata in vergelijking met state-of-the-art methoden. Daarnaast hebben wij geobserveerd dat een gebalanceerde verhouding van positieve en negatieve instanties in de trainingsdata leidt tot een robuuster model. Onze projectlink is beschikbaar op https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.