Woodpecker: Corrección de Alucinaciones para Modelos de Lenguaje Multimodales a Gran Escala

Resumen

La alucinación es una gran sombra que se cierne sobre los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en rápida evolución, refiriéndose al fenómeno en el que el texto generado es inconsistente con el contenido de la imagen. Para mitigar las alucinaciones, los estudios existentes recurren principalmente a un enfoque de ajuste por instrucciones que requiere reentrenar los modelos con datos específicos. En este artículo, proponemos un camino diferente, introduciendo un método sin entrenamiento llamado Woodpecker. Al igual que un pájaro carpintero sana los árboles, este método identifica y corrige las alucinaciones en el texto generado. Concretamente, Woodpecker consta de cinco etapas: extracción de conceptos clave, formulación de preguntas, validación de conocimiento visual, generación de afirmaciones visuales y corrección de alucinaciones. Implementado de manera post-remediación, Woodpecker puede servir fácilmente a diferentes MLLMs, mientras que es interpretable al acceder a los resultados intermedios de las cinco etapas. Evaluamos Woodpecker tanto cuantitativa como cualitativamente y demostramos el enorme potencial de este nuevo paradigma. En el benchmark POPE, nuestro método obtiene una mejora del 30.66%/24.33% en precisión sobre la línea base MiniGPT-4/mPLUG-Owl. El código fuente se encuentra disponible en https://github.com/BradyFU/Woodpecker.

English

Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.

Woodpecker: Corrección de Alucinaciones para Modelos de Lenguaje Multimodales a Gran Escala

Woodpecker: Hallucination Correction for Multimodal Large Language Models

Resumen

Support