Ausrichtung großer multimodaler Modelle durch robustes Instruktions-Finetuning

Zusammenfassung

Trotz der vielversprechenden Fortschritte bei multimodalen Aufgaben neigen aktuelle große multimodale Modelle (LMM) dazu, inkonsistente Beschreibungen in Bezug auf das zugehörige Bild und menschliche Anweisungen zu halluzinieren. Dieses Papier befasst sich mit diesem Problem, indem es den ersten großen und vielfältigen visuellen Instruktionsabstimmungsdatensatz vorstellt, der als Large-scale Robust Visual (LRV)-Instruction bezeichnet wird. Unser Datensatz besteht aus 120k visuellen Anweisungen, die von GPT4 generiert wurden und 16 Vision-und-Sprache-Aufgaben mit offenen Anweisungen und Antworten abdecken. Im Gegensatz zu bestehenden Studien, die sich hauptsächlich auf positive Anweisungsbeispiele konzentrieren, entwirft LRV-Instruction sowohl positive als auch negative Anweisungen für eine robustere visuelle Instruktionsabstimmung. Unsere negativen Anweisungen sind auf zwei semantischen Ebenen gestaltet: (i) Manipulation nicht existierender Elemente und (ii) Manipulation existierender Elemente. Um die von LMMs erzeugten Halluzinationen effizient zu messen, schlagen wir GPT4-Assisted Visual Instruction Evaluation (GAVIE) vor, einen neuartigen Ansatz zur Bewertung der visuellen Instruktionsabstimmung, der keine von Menschen annotierten Grundwahrheitsantworten benötigt und sich an diverse Anweisungsformate anpassen kann. Wir führen umfassende Experimente durch, um die Halluzinationen von LMMs zu untersuchen. Unsere Ergebnisse zeigen, dass bestehende LMMs signifikante Halluzinationen aufweisen, wenn sie mit unseren negativen Anweisungen konfrontiert werden, insbesondere bei Anweisungen zur Manipulation existierender Elemente. Darüber hinaus konnten wir durch das Feinabstimmen von MiniGPT4 auf LRV-Instruction die Halluzinationen erfolgreich reduzieren und gleichzeitig die Leistung auf öffentlichen Datensätzen mit weniger Trainingsdaten im Vergleich zu state-of-the-art-Methoden verbessern. Zusätzlich beobachteten wir, dass ein ausgewogenes Verhältnis von positiven und negativen Instanzen in den Trainingsdaten zu einem robusteren Modell führt. Der Link zu unserem Projekt ist verfügbar unter https://fuxiaoliu.github.io/LRV/.

English

Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Our project link is available at https://fuxiaoliu.github.io/LRV/.

Ausrichtung großer multimodaler Modelle durch robustes Instruktions-Finetuning

Aligning Large Multi-Modal Model with Robust Instruction Tuning

Zusammenfassung

Support