Alineación de Modelos Multimodales Grandes mediante Ajuste Robusto de Instrucciones
Aligning Large Multi-Modal Model with Robust Instruction Tuning
June 26, 2023
Autores: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI
Resumen
A pesar del progreso prometedor en tareas multimodales, los modelos multimodales grandes (LMM) actuales tienden a generar descripciones inconsistentes con respecto a la imagen asociada y las instrucciones humanas. Este artículo aborda este problema introduciendo el primer conjunto de datos grande y diverso para el ajuste de instrucciones visuales, denominado Large-scale Robust Visual (LRV)-Instruction. Nuestro conjunto de datos consta de 120k instrucciones visuales generadas por GPT4, que cubren 16 tareas de visión y lenguaje con instrucciones y respuestas de formato abierto. A diferencia de los estudios existentes que se centran principalmente en muestras de instrucciones positivas, diseñamos LRV-Instruction para incluir tanto instrucciones positivas como negativas, con el fin de lograr un ajuste de instrucciones visuales más robusto. Nuestras instrucciones negativas están diseñadas en dos niveles semánticos: (i) Manipulación de Elementos Inexistentes y (ii) Manipulación de Elementos Existentes. Para medir eficientemente la alucinación generada por los LMMs, proponemos GPT4-Assisted Visual Instruction Evaluation (GAVIE), un enfoque novedoso para evaluar el ajuste de instrucciones visuales sin necesidad de respuestas de referencia anotadas por humanos y que puede adaptarse a diversos formatos de instrucción. Realizamos experimentos exhaustivos para investigar la alucinación en los LMMs. Nuestros resultados demuestran que los LMMs existentes exhiben una alucinación significativa cuando se les presentan nuestras instrucciones negativas, particularmente con las instrucciones de Manipulación de Elementos Existentes. Además, al ajustar MiniGPT4 en LRV-Instruction, logramos mitigar la alucinación mientras mejoramos el rendimiento en conjuntos de datos públicos utilizando menos datos de entrenamiento en comparación con los métodos más avanzados. Adicionalmente, observamos que una proporción equilibrada de instancias positivas y negativas en los datos de entrenamiento conduce a un modelo más robusto. El enlace de nuestro proyecto está disponible en https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.