ChatPaper.aiChatPaper

Контрастное декодирование улучшает способность к рассуждению в больших языковых моделях.

Contrastive Decoding Improves Reasoning in Large Language Models

September 17, 2023
Авторы: Sean O'Brien, Mike Lewis
cs.AI

Аннотация

Мы демонстрируем, что Contrastive Decoding — простой, вычислительно легкий и не требующий обучения метод генерации текста, предложенный Li et al. (2022), — обеспечивает значительные улучшения "из коробки" по сравнению с жадным декодированием на различных задачах, связанных с рассуждениями. Изначально показанный как метод, улучшающий воспринимаемое качество генерации длинных текстов, Contrastive Decoding ищет строки, которые максимизируют взвешенную разницу в правдоподобии между сильной и слабой моделями. Мы показываем, что Contrastive Decoding позволяет модели LLaMA-65B превзойти LLaMA 2, GPT-3.5 и PaLM 2-L на бенчмарке HellaSwag для проверки здравого смысла, а также превзойти LLaMA 2, GPT-3.5 и PaLM-540B на бенчмарке GSM8K для решения математических задач, помимо улучшений на ряде других задач. Анализ показывает, что Contrastive Decoding превосходит существующие методы, предотвращая некоторые ошибки абстрактного рассуждения, а также избегая более простых режимов, таких как копирование частей входных данных в процессе цепочки рассуждений. В целом, Contrastive Decoding превосходит ядерную выборку для генерации длинных текстов и жадное декодирование для задач рассуждения, что делает его мощным универсальным методом для генерации текста с использованием языковых моделей.
English
We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.
PDF391December 15, 2024