La Catena di Verifica Riduce le Allucinazioni nei Modelli Linguistici di Grande Dimensione
Chain-of-Verification Reduces Hallucination in Large Language Models
September 20, 2023
Autori: Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston
cs.AI
Abstract
La generazione di informazioni fattuali plausibili ma errate, denominata allucinazione, rappresenta un problema irrisolto nei grandi modelli linguistici. Studiamo la capacità dei modelli linguistici di riflettere sulle risposte che forniscono al fine di correggere i propri errori. Sviluppiamo il metodo Chain-of-Verification (CoVe), in cui il modello (i) redige prima una risposta iniziale; poi (ii) pianifica domande di verifica per controllare i fatti del proprio draft; (iii) risponde a tali domande in modo indipendente, affinché le risposte non siano influenzate da altre risposte; e (iv) genera la sua risposta finale verificata. Negli esperimenti, dimostriamo che CoVe riduce le allucinazioni in una varietà di compiti, dalle domande basate su elenchi di Wikidata, al MultiSpanQA a libro chiuso e alla generazione di testi lunghi.
English
Generation of plausible yet incorrect factual information, termed
hallucination, is an unsolved issue in large language models. We study the
ability of language models to deliberate on the responses they give in order to
correct their mistakes. We develop the Chain-of-Verification (CoVe) method
whereby the model first (i) drafts an initial response; then (ii) plans
verification questions to fact-check its draft; (iii) answers those questions
independently so the answers are not biased by other responses; and (iv)
generates its final verified response. In experiments, we show CoVe decreases
hallucinations across a variety of tasks, from list-based questions from
Wikidata, closed book MultiSpanQA and longform text generation.