Ausrichtung großer multimodaler Modelle durch robustes Instruktions-Finetuning
Aligning Large Multi-Modal Model with Robust Instruction Tuning
June 26, 2023
Autoren: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI
Zusammenfassung
Trotz der vielversprechenden Fortschritte bei multimodalen Aufgaben neigen aktuelle große multimodale Modelle (LMM) dazu, inkonsistente Beschreibungen in Bezug auf das zugehörige Bild und menschliche Anweisungen zu halluzinieren. Dieses Papier befasst sich mit diesem Problem, indem es den ersten großen und vielfältigen visuellen Instruktionsabstimmungsdatensatz vorstellt, der als Large-scale Robust Visual (LRV)-Instruction bezeichnet wird. Unser Datensatz besteht aus 120k visuellen Anweisungen, die von GPT4 generiert wurden und 16 Vision-und-Sprache-Aufgaben mit offenen Anweisungen und Antworten abdecken. Im Gegensatz zu bestehenden Studien, die sich hauptsächlich auf positive Anweisungsbeispiele konzentrieren, entwirft LRV-Instruction sowohl positive als auch negative Anweisungen für eine robustere visuelle Instruktionsabstimmung. Unsere negativen Anweisungen sind auf zwei semantischen Ebenen gestaltet: (i) Manipulation nicht existierender Elemente und (ii) Manipulation existierender Elemente. Um die von LMMs erzeugten Halluzinationen effizient zu messen, schlagen wir GPT4-Assisted Visual Instruction Evaluation (GAVIE) vor, einen neuartigen Ansatz zur Bewertung der visuellen Instruktionsabstimmung, der keine von Menschen annotierten Grundwahrheitsantworten benötigt und sich an diverse Anweisungsformate anpassen kann. Wir führen umfassende Experimente durch, um die Halluzinationen von LMMs zu untersuchen. Unsere Ergebnisse zeigen, dass bestehende LMMs signifikante Halluzinationen aufweisen, wenn sie mit unseren negativen Anweisungen konfrontiert werden, insbesondere bei Anweisungen zur Manipulation existierender Elemente. Darüber hinaus konnten wir durch das Feinabstimmen von MiniGPT4 auf LRV-Instruction die Halluzinationen erfolgreich reduzieren und gleichzeitig die Leistung auf öffentlichen Datensätzen mit weniger Trainingsdaten im Vergleich zu state-of-the-art-Methoden verbessern. Zusätzlich beobachteten wir, dass ein ausgewogenes Verhältnis von positiven und negativen Instanzen in den Trainingsdaten zu einem robusteren Modell führt. Der Link zu unserem Projekt ist verfügbar unter https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.