Kontrastives Decoding verbessert das logische Denken in großen Sprachmodellen.
Contrastive Decoding Improves Reasoning in Large Language Models
September 17, 2023
Autoren: Sean O'Brien, Mike Lewis
cs.AI
Zusammenfassung
Wir zeigen, dass Contrastive Decoding – eine einfache, recheneffiziente und trainingsfreie Methode zur Textgenerierung, die von Li et al. 2022 vorgeschlagen wurde – erhebliche Verbesserungen gegenüber dem Greedy-Decoding bei einer Vielzahl von Denkaufgaben erzielt. Ursprünglich wurde gezeigt, dass Contrastive Decoding die wahrgenommene Qualität der langfristigen Textgenerierung verbessert, indem es nach Zeichenfolgen sucht, die eine gewichtete Differenz in der Wahrscheinlichkeit zwischen starken und schwachen Modellen maximieren. Wir zeigen, dass Contrastive Decoding LLaMA-65B dazu befähigt, LLaMA 2, GPT-3.5 und PaLM 2-L auf dem HellaSwag-Benchmark für gesunden Menschenverstand zu übertreffen, und LLaMA 2, GPT-3.5 und PaLM-540B auf dem GSM8K-Benchmark für mathematische Textaufgaben zu übertreffen, zusätzlich zu Verbesserungen bei einer Sammlung anderer Aufgaben. Analysen deuten darauf hin, dass Contrastive Decoding bestehende Methoden verbessert, indem es einige abstrakte Denkfehler verhindert sowie einfachere Modi wie das Kopieren von Abschnitten der Eingabe während der Gedankenkette vermeidet. Insgesamt übertrifft Contrastive Decoding die Nukleus-Sampling-Methode bei der langfristigen Generierung und das Greedy-Decoding bei Denkaufgaben, was es zu einer leistungsstarken, allgemeinen Methode zur Textgenerierung aus Sprachmodellen macht.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light,
and training-free text generation method proposed by Li et al 2022 -- achieves
large out-of-the-box improvements over greedy decoding on a variety of
reasoning tasks. Originally shown to improve the perceived quality of long-form
text generation, Contrastive Decoding searches for strings that maximize a
weighted difference in likelihood between strong and weak models. We show that
Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM
2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA
2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in
addition to improvements on a collection of other tasks. Analysis suggests that
Contrastive Decoding improves over existing methods by preventing some abstract
reasoning errors, as well as by avoiding simpler modes such as copying sections
of the input during chain-of-thought. Overall, Contrastive Decoding outperforms
nucleus sampling for long-form generation and greedy decoding for reasoning
tasks, making it a powerful general purpose method for generating text from
language models.