La Decodificación Contrastiva Mejora el Razonamiento en Modelos de Lenguaje de Gran Escala
Contrastive Decoding Improves Reasoning in Large Language Models
September 17, 2023
Autores: Sean O'Brien, Mike Lewis
cs.AI
Resumen
Demostramos que el Decodificado Contrastivo —un método simple, computacionalmente ligero y que no requiere entrenamiento, propuesto por Li et al. en 2022— logra mejoras significativas inmediatas sobre el decodificado voraz en una variedad de tareas de razonamiento. Originalmente mostrado para mejorar la calidad percibida en la generación de texto de largo formato, el Decodificado Contrastivo busca cadenas que maximicen una diferencia ponderada en la probabilidad entre modelos fuertes y débiles. Mostramos que el Decodificado Contrastivo permite que LLaMA-65B supere a LLaMA 2, GPT-3.5 y PaLM 2-L en el benchmark de razonamiento de sentido común HellaSwag, y que supere a LLaMA 2, GPT-3.5 y PaLM-540B en el benchmark de razonamiento matemático GSM8K, además de mejoras en una colección de otras tareas. El análisis sugiere que el Decodificado Contrastivo mejora sobre los métodos existentes al prevenir ciertos errores de razonamiento abstracto, así como al evitar modos más simples, como copiar secciones de la entrada durante el razonamiento en cadena. En general, el Decodificado Contrastivo supera al muestreo por núcleo en la generación de texto de largo formato y al decodificado voraz en tareas de razonamiento, convirtiéndolo en un método de propósito general potente para generar texto a partir de modelos de lenguaje.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light,
and training-free text generation method proposed by Li et al 2022 -- achieves
large out-of-the-box improvements over greedy decoding on a variety of
reasoning tasks. Originally shown to improve the perceived quality of long-form
text generation, Contrastive Decoding searches for strings that maximize a
weighted difference in likelihood between strong and weak models. We show that
Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM
2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA
2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in
addition to improvements on a collection of other tasks. Analysis suggests that
Contrastive Decoding improves over existing methods by preventing some abstract
reasoning errors, as well as by avoiding simpler modes such as copying sections
of the input during chain-of-thought. Overall, Contrastive Decoding outperforms
nucleus sampling for long-form generation and greedy decoding for reasoning
tasks, making it a powerful general purpose method for generating text from
language models.