DoLa: Decodificación por Contraste de Capas Mejora la Factualidad en Modelos de Lenguaje a Gran Escala
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
September 7, 2023
Autores: Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He
cs.AI
Resumen
A pesar de sus impresionantes capacidades, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son propensos a las alucinaciones, es decir, a generar contenido que se desvía de los hechos observados durante el preentrenamiento. Proponemos una estrategia de decodificación simple para reducir las alucinaciones en LLMs preentrenados que no requiere condicionamiento sobre conocimiento externo recuperado ni ajustes adicionales. Nuestro enfoque obtiene la distribución del siguiente token contrastando las diferencias en los logits obtenidos al proyectar las capas posteriores frente a las capas anteriores en el espacio del vocabulario, aprovechando el hecho de que el conocimiento factual en los LLMs generalmente se ha demostrado que está localizado en capas específicas del transformador. Descubrimos que este enfoque de Decodificación por Contraste de Capas (DoLa, por sus siglas en inglés) es capaz de resaltar mejor el conocimiento factual y reducir la generación de hechos incorrectos. DoLa mejora consistentemente la veracidad en tareas de selección múltiple y tareas de generación abierta, por ejemplo, mejorando el rendimiento de los modelos de la familia LLaMA en TruthfulQA en 12-17 puntos porcentuales absolutos, demostrando su potencial para hacer que los LLMs generen hechos verdaderos de manera confiable.
English
Despite their impressive capabilities, large language models (LLMs) are prone
to hallucinations, i.e., generating content that deviates from facts seen
during pretraining. We propose a simple decoding strategy for reducing
hallucinations with pretrained LLMs that does not require conditioning on
retrieved external knowledge nor additional fine-tuning. Our approach obtains
the next-token distribution by contrasting the differences in logits obtained
from projecting the later layers versus earlier layers to the vocabulary space,
exploiting the fact that factual knowledge in an LLMs has generally been shown
to be localized to particular transformer layers. We find that this Decoding by
Contrasting Layers (DoLa) approach is able to better surface factual knowledge
and reduce the generation of incorrect facts. DoLa consistently improves the
truthfulness across multiple choices tasks and open-ended generation tasks, for
example improving the performance of LLaMA family models on TruthfulQA by
12-17% absolute points, demonstrating its potential in making LLMs reliably
generate truthful facts.