A Decodificação Contrastiva Melhora o Raciocínio em Modelos de Linguagem de Grande Escala
Contrastive Decoding Improves Reasoning in Large Language Models
September 17, 2023
Autores: Sean O'Brien, Mike Lewis
cs.AI
Resumo
Demonstramos que o Decodificação Contrastiva -- um método simples, computacionalmente leve e livre de treinamento para geração de texto proposto por Li et al. em 2022 -- alcança grandes melhorias imediatas em relação à decodificação gananciosa em uma variedade de tarefas de raciocínio. Originalmente mostrado para melhorar a qualidade percebida da geração de texto de longa forma, a Decodificação Contrastiva busca por sequências que maximizam uma diferença ponderada na probabilidade entre modelos fortes e fracos. Mostramos que a Decodificação Contrastiva leva o LLaMA-65B a superar o LLaMA 2, GPT-3.5 e PaLM 2-L no benchmark de raciocínio de senso comum HellaSwag, e a superar o LLaMA 2, GPT-3.5 e PaLM-540B no benchmark de raciocínio matemático GSM8K, além de melhorias em uma coleção de outras tarefas. A análise sugere que a Decodificação Contrastiva melhora em relação aos métodos existentes ao prevenir alguns erros de raciocínio abstrato, bem como ao evitar modos mais simples, como copiar seções da entrada durante o raciocínio em cadeia. No geral, a Decodificação Contrastiva supera a amostragem por núcleo para geração de texto de longa forma e a decodificação gananciosa para tarefas de raciocínio, tornando-a um método de propósito geral poderoso para gerar texto a partir de modelos de linguagem.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light,
and training-free text generation method proposed by Li et al 2022 -- achieves
large out-of-the-box improvements over greedy decoding on a variety of
reasoning tasks. Originally shown to improve the perceived quality of long-form
text generation, Contrastive Decoding searches for strings that maximize a
weighted difference in likelihood between strong and weak models. We show that
Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM
2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA
2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in
addition to improvements on a collection of other tasks. Analysis suggests that
Contrastive Decoding improves over existing methods by preventing some abstract
reasoning errors, as well as by avoiding simpler modes such as copying sections
of the input during chain-of-thought. Overall, Contrastive Decoding outperforms
nucleus sampling for long-form generation and greedy decoding for reasoning
tasks, making it a powerful general purpose method for generating text from
language models.