Contrastief decoderen verbetert het redeneervermogen van grote taalmodellen.
Contrastive Decoding Improves Reasoning in Large Language Models
September 17, 2023
Auteurs: Sean O'Brien, Mike Lewis
cs.AI
Samenvatting
We tonen aan dat Contrastive Decoding -- een eenvoudige, computationeel lichte en trainingsvrije tekstgeneratiemethode voorgesteld door Li et al. 2022 -- grote out-of-the-box verbeteringen bereikt ten opzichte van greedy decoding bij een verscheidenheid aan redeneertaken. Oorspronkelijk getoond om de waargenomen kwaliteit van langlopende tekstgeneratie te verbeteren, zoekt Contrastive Decoding naar strings die een gewogen verschil in waarschijnlijkheid maximaliseren tussen sterke en zwakke modellen. We laten zien dat Contrastive Decoding ervoor zorgt dat LLaMA-65B LLaMA 2, GPT-3.5 en PaLM 2-L overtreft op de HellaSwag commonsense redeneerbenchmark, en dat het LLaMA 2, GPT-3.5 en PaLM-540B overtreft op de GSM8K wiskundige woordredeneerbenchmark, naast verbeteringen op een verzameling andere taken. Analyse suggereert dat Contrastive Decoding bestaande methoden verbetert door sommige abstracte redeneerfouten te voorkomen, evenals door eenvoudigere modi te vermijden, zoals het kopiëren van delen van de invoer tijdens chain-of-thought. Over het algemeen overtreft Contrastive Decoding nucleus sampling voor langlopende generatie en greedy decoding voor redeneertaken, waardoor het een krachtige algemene methode is voor het genereren van tekst uit taalmodelen.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light,
and training-free text generation method proposed by Li et al 2022 -- achieves
large out-of-the-box improvements over greedy decoding on a variety of
reasoning tasks. Originally shown to improve the perceived quality of long-form
text generation, Contrastive Decoding searches for strings that maximize a
weighted difference in likelihood between strong and weak models. We show that
Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM
2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA
2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in
addition to improvements on a collection of other tasks. Analysis suggests that
Contrastive Decoding improves over existing methods by preventing some abstract
reasoning errors, as well as by avoiding simpler modes such as copying sections
of the input during chain-of-thought. Overall, Contrastive Decoding outperforms
nucleus sampling for long-form generation and greedy decoding for reasoning
tasks, making it a powerful general purpose method for generating text from
language models.