Il Decodifica Contrastiva Migliora il Ragionamento nei Modelli Linguistici di Grandi Dimensioni

Abstract

Dimostriamo che il Contrastive Decoding -- un metodo semplice, computazionalmente leggero e privo di addestramento per la generazione di testo proposto da Li et al. nel 2022 -- ottiene miglioramenti significativi "out-of-the-box" rispetto al greedy decoding su una varietà di task di ragionamento. Originariamente dimostrato per migliorare la qualità percepita della generazione di testo in forma estesa, il Contrastive Decoding cerca stringhe che massimizzano una differenza ponderata nella probabilità tra modelli forti e deboli. Mostriamo che il Contrastive Decoding consente a LLaMA-65B di superare LLaMA 2, GPT-3.5 e PaLM 2-L sul benchmark di ragionamento di senso comune HellaSwag, e di superare LLaMA 2, GPT-3.5 e PaLM-540B sul benchmark di ragionamento matematico GSM8K, oltre a ottenere miglioramenti su una raccolta di altri task. L'analisi suggerisce che il Contrastive Decoding migliora rispetto ai metodi esistenti prevenendo alcuni errori di ragionamento astratto, oltre a evitare modalità più semplici come la copia di sezioni dell'input durante il chain-of-thought. Nel complesso, il Contrastive Decoding supera il nucleus sampling per la generazione di testo in forma estesa e il greedy decoding per i task di ragionamento, rendendolo un potente metodo generico per la generazione di testo da modelli linguistici.

English

We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.

Il Decodifica Contrastiva Migliora il Ragionamento nei Modelli Linguistici di Grandi Dimensioni

Contrastive Decoding Improves Reasoning in Large Language Models

Abstract

Support