ChatPaper.aiChatPaper

La Cadena de Verificación Reduce las Alucinaciones en los Modelos de Lenguaje de Gran Escala

Chain-of-Verification Reduces Hallucination in Large Language Models

September 20, 2023
Autores: Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston
cs.AI

Resumen

La generación de información factual plausible pero incorrecta, denominada alucinación, es un problema no resuelto en los modelos de lenguaje de gran escala. Estudiamos la capacidad de los modelos de lenguaje para deliberar sobre las respuestas que dan con el fin de corregir sus errores. Desarrollamos el método Cadena-de-Verificación (CoVe, por sus siglas en inglés), mediante el cual el modelo primero (i) redacta una respuesta inicial; luego (ii) planifica preguntas de verificación para contrastar su borrador; (iii) responde esas preguntas de manera independiente para que las respuestas no estén sesgadas por otras respuestas; y (iv) genera su respuesta final verificada. En los experimentos, demostramos que CoVe reduce las alucinaciones en una variedad de tareas, desde preguntas basadas en listas de Wikidata, MultiSpanQA de libro cerrado y generación de texto extenso.
English
Generation of plausible yet incorrect factual information, termed hallucination, is an unsolved issue in large language models. We study the ability of language models to deliberate on the responses they give in order to correct their mistakes. We develop the Chain-of-Verification (CoVe) method whereby the model first (i) drafts an initial response; then (ii) plans verification questions to fact-check its draft; (iii) answers those questions independently so the answers are not biased by other responses; and (iv) generates its final verified response. In experiments, we show CoVe decreases hallucinations across a variety of tasks, from list-based questions from Wikidata, closed book MultiSpanQA and longform text generation.
PDF396December 15, 2024