Woodpecker: Correzione delle Allucinazioni per Modelli Linguistici Multimodali di Grande Dimensione

Abstract

L'allucinazione rappresenta una grande ombra che incombe sui Modelli Linguistici Multimodali di Grande Scala (MLLMs) in rapida evoluzione, riferendosi al fenomeno per cui il testo generato è incoerente con il contenuto dell'immagine. Per mitigare le allucinazioni, gli studi esistenti si basano principalmente su un approccio di instruction-tuning che richiede il riaddestramento dei modelli con dati specifici. In questo articolo, proponiamo una strada diversa, introducendo un metodo senza addestramento chiamato Woodpecker. Come un picchio che cura gli alberi, esso individua e corregge le allucinazioni dal testo generato. Nello specifico, Woodpecker è composto da cinque fasi: estrazione dei concetti chiave, formulazione delle domande, validazione della conoscenza visiva, generazione di affermazioni visive e correzione delle allucinazioni. Implementato in modalità post-rimedio, Woodpecker può facilmente servire diversi MLLMs, rimanendo interpretabile grazie all'accesso agli output intermedi delle cinque fasi. Valutiamo Woodpecker sia quantitativamente che qualitativamente, dimostrando l'enorme potenziale di questo nuovo paradigma. Sul benchmark POPE, il nostro metodo ottiene un miglioramento del 30,66%/24,33% in accuratezza rispetto ai baseline MiniGPT-4/mPLUG-Owl. Il codice sorgente è disponibile all'indirizzo https://github.com/BradyFU/Woodpecker.

English

Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.

Woodpecker: Correzione delle Allucinazioni per Modelli Linguistici Multimodali di Grande Dimensione

Woodpecker: Hallucination Correction for Multimodal Large Language Models

Abstract

Support