Inducción de Cadenas de Pensamiento Contrastivas
Contrastive Chain-of-Thought Prompting
November 15, 2023
Autores: Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing
cs.AI
Resumen
A pesar del éxito del razonamiento en cadena (chain of thought) para mejorar el razonamiento de los modelos de lenguaje, el proceso subyacente sigue siendo poco comprendido. Aunque el razonamiento lógicamente sólido parece intrínsecamente crucial para el razonamiento en cadena, estudios previos revelan, sorprendentemente, un impacto mínimo al utilizar demostraciones inválidas. Además, el enfoque convencional del razonamiento en cadena no informa a los modelos de lenguaje sobre qué errores evitar, lo que potencialmente conduce a más fallos. Por ello, inspirados en cómo los humanos pueden aprender tanto de ejemplos positivos como negativos, proponemos el razonamiento en cadena contrastivo para mejorar el razonamiento de los modelos de lenguaje. En comparación con el enfoque convencional, nuestro método proporciona demostraciones de razonamiento tanto válidas como inválidas, guiando al modelo a razonar paso a paso mientras reduce errores de razonamiento. Para mejorar la generalización, introducimos un método automático para construir demostraciones contrastivas. Nuestros experimentos en benchmarks de razonamiento demuestran que el razonamiento en cadena contrastivo puede servir como una mejora general del enfoque de razonamiento en cadena tradicional.
English
Despite the success of chain of thought in enhancing language model
reasoning, the underlying process remains less well understood. Although
logically sound reasoning appears inherently crucial for chain of thought,
prior studies surprisingly reveal minimal impact when using invalid
demonstrations instead. Furthermore, the conventional chain of thought does not
inform language models on what mistakes to avoid, which potentially leads to
more errors. Hence, inspired by how humans can learn from both positive and
negative examples, we propose contrastive chain of thought to enhance language
model reasoning. Compared to the conventional chain of thought, our approach
provides both valid and invalid reasoning demonstrations, to guide the model to
reason step-by-step while reducing reasoning mistakes. To improve
generalization, we introduce an automatic method to construct contrastive
demonstrations. Our experiments on reasoning benchmarks demonstrate that
contrastive chain of thought can serve as a general enhancement of
chain-of-thought prompting.