Контрастное пошаговое рассуждение с подсказками
Contrastive Chain-of-Thought Prompting
November 15, 2023
Авторы: Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing
cs.AI
Аннотация
Несмотря на успех метода цепочки рассуждений (chain of thought) в улучшении способности языковых моделей к логическому мышлению, лежащие в его основе процессы остаются недостаточно изученными. Хотя логически последовательные рассуждения кажутся принципиально важными для цепочки рассуждений, предыдущие исследования удивительным образом показывают минимальное влияние при использовании некорректных демонстраций. Более того, традиционная цепочка рассуждений не указывает языковым моделям, каких ошибок следует избегать, что потенциально приводит к увеличению числа ошибок. Вдохновленные тем, как люди могут учиться как на положительных, так и на отрицательных примерах, мы предлагаем контрастную цепочку рассуждений для улучшения логического мышления языковых моделей. В отличие от традиционного подхода, наш метод предоставляет как корректные, так и некорректные демонстрации рассуждений, чтобы направлять модель в пошаговом рассуждении, одновременно уменьшая количество ошибок. Для улучшения обобщаемости мы вводим автоматический метод создания контрастных демонстраций. Наши эксперименты на тестовых наборах для оценки логического мышления показывают, что контрастная цепочка рассуждений может служить универсальным улучшением метода подсказок с использованием цепочки рассуждений.
English
Despite the success of chain of thought in enhancing language model
reasoning, the underlying process remains less well understood. Although
logically sound reasoning appears inherently crucial for chain of thought,
prior studies surprisingly reveal minimal impact when using invalid
demonstrations instead. Furthermore, the conventional chain of thought does not
inform language models on what mistakes to avoid, which potentially leads to
more errors. Hence, inspired by how humans can learn from both positive and
negative examples, we propose contrastive chain of thought to enhance language
model reasoning. Compared to the conventional chain of thought, our approach
provides both valid and invalid reasoning demonstrations, to guide the model to
reason step-by-step while reducing reasoning mistakes. To improve
generalization, we introduce an automatic method to construct contrastive
demonstrations. Our experiments on reasoning benchmarks demonstrate that
contrastive chain of thought can serve as a general enhancement of
chain-of-thought prompting.