ChatPaper.aiChatPaper

Le décodage contrastif améliore le raisonnement dans les grands modèles de langage.

Contrastive Decoding Improves Reasoning in Large Language Models

September 17, 2023
Auteurs: Sean O'Brien, Mike Lewis
cs.AI

Résumé

Nous démontrons que le décodage contrastif -- une méthode simple, peu coûteuse en calcul et ne nécessitant pas d'entraînement pour la génération de texte, proposée par Li et al. en 2022 -- apporte des améliorations significatives immédiates par rapport au décodage glouton sur une variété de tâches de raisonnement. Initialement conçu pour améliorer la qualité perçue de la génération de texte long, le décodage contrastif recherche des séquences qui maximisent une différence pondérée en vraisemblance entre des modèles forts et faibles. Nous montrons que le décodage contrastif permet à LLaMA-65B de surpasser LLaMA 2, GPT-3.5 et PaLM 2-L sur le benchmark de raisonnement de bon sens HellaSwag, ainsi que de surpasser LLaMA 2, GPT-3.5 et PaLM-540B sur le benchmark de raisonnement mathématique GSM8K, en plus d'améliorations sur une collection d'autres tâches. L'analyse suggère que le décodage contrastif surpasse les méthodes existantes en prévenant certaines erreurs de raisonnement abstrait, ainsi qu'en évitant des modes plus simples tels que la copie de sections de l'entrée lors d'un raisonnement en chaîne. Globalement, le décodage contrastif surpasse l'échantillonnage par noyau pour la génération de texte long et le décodage glouton pour les tâches de raisonnement, en faisant une méthode polyvalente puissante pour générer du texte à partir de modèles de langage.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.
PDF391December 15, 2024