Alinhando Modelos Multimodais de Grande Escala com Ajuste Robusto de Instruções
Aligning Large Multi-Modal Model with Robust Instruction Tuning
June 26, 2023
Autores: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI
Resumo
Apesar dos avanços promissores em tarefas multimodais, os atuais modelos multimodais de grande escala (LMM) tendem a alucinar descrições inconsistentes em relação à imagem associada e às instruções humanas. Este artigo aborda essa questão introduzindo o primeiro conjunto de dados de ajuste de instruções visuais grande e diversificado, denominado Large-scale Robust Visual (LRV)-Instruction. Nosso conjunto de dados consiste em 120 mil instruções visuais geradas pelo GPT4, abrangendo 16 tarefas de visão e linguagem com instruções e respostas de formato aberto. Diferentemente de estudos existentes que se concentram principalmente em amostras de instruções positivas, projetamos o LRV-Instruction para incluir tanto instruções positivas quanto negativas, visando um ajuste de instruções visuais mais robusto. Nossas instruções negativas são projetadas em dois níveis semânticos: (i) Manipulação de Elementos Inexistentes e (ii) Manipulação de Elementos Existentes. Para medir eficientemente a alucinação gerada pelos LMMs, propomos o GPT4-Assisted Visual Instruction Evaluation (GAVIE), uma abordagem inovadora para avaliar o ajuste de instruções visuais sem a necessidade de respostas verdadeiras anotadas por humanos e que pode se adaptar a diversos formatos de instrução. Realizamos experimentos abrangentes para investigar a alucinação dos LMMs. Nossos resultados demonstram que os LMMs existentes exibem alucinação significativa quando apresentados com nossas instruções negativas, particularmente com instruções de Manipulação de Elementos Existentes. Além disso, ao ajustar o MiniGPT4 no LRV-Instruction, conseguimos mitigar a alucinação enquanto melhoramos o desempenho em conjuntos de dados públicos, utilizando menos dados de treinamento em comparação com métodos state-of-the-art. Adicionalmente, observamos que uma proporção equilibrada de instâncias positivas e negativas nos dados de treinamento resulta em um modelo mais robusto. O link do nosso projeto está disponível em https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.