ChatPaper.aiChatPaper

Alignement des grands modèles multimodaux par un réglage d'instructions robuste

Aligning Large Multi-Modal Model with Robust Instruction Tuning

June 26, 2023
Auteurs: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI

Résumé

Malgré les progrès prometteurs dans les tâches multi-modales, les grands modèles multi-modaux (LMM) actuels ont tendance à générer des descriptions incohérentes par rapport à l'image associée et aux instructions humaines. Cet article aborde ce problème en introduisant le premier jeu de données d'ajustement d'instructions visuelles à grande échelle et diversifié, nommé Large-scale Robust Visual (LRV)-Instruction. Notre jeu de données comprend 120k instructions visuelles générées par GPT4, couvrant 16 tâches combinant vision et langage avec des instructions et réponses ouvertes. Contrairement aux études existantes qui se concentrent principalement sur des échantillons d'instructions positives, nous concevons LRV-Instruction pour inclure à la fois des instructions positives et négatives afin d'obtenir un ajustement d'instructions visuelles plus robuste. Nos instructions négatives sont conçues à deux niveaux sémantiques : (i) Manipulation d'éléments inexistants et (ii) Manipulation d'éléments existants. Pour mesurer efficacement les hallucinations générées par les LMMs, nous proposons GPT4-Assisted Visual Instruction Evaluation (GAVIE), une nouvelle approche pour évaluer l'ajustement d'instructions visuelles sans nécessiter de réponses annotées par des humains et pouvant s'adapter à divers formats d'instructions. Nous menons des expériences approfondies pour étudier les hallucinations des LMMs. Nos résultats montrent que les LMMs existants présentent des hallucinations significatives lorsqu'ils sont confrontés à nos instructions négatives, en particulier avec les instructions de Manipulation d'éléments existants. De plus, en ajustant MiniGPT4 sur LRV-Instruction, nous parvenons à atténuer les hallucinations tout en améliorant les performances sur des jeux de données publics en utilisant moins de données d'entraînement par rapport aux méthodes de pointe. Par ailleurs, nous avons observé qu'un ratio équilibré d'instances positives et négatives dans les données d'entraînement conduit à un modèle plus robuste. Le lien de notre projet est disponible à l'adresse suivante : https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Our project link is available at https://fuxiaoliu.github.io/LRV/.
PDF60December 15, 2024