Cadena de Pensamiento Autoarmonizada

Resumen

La técnica de estímulo de Cadena de Pensamiento (CoT) revela que los grandes modelos de lenguaje son capaces de realizar un razonamiento complejo a través de pasos intermedios. La técnica de estímulo CoT se categoriza principalmente en tres enfoques. El primer enfoque utiliza estímulos directos como "Pensemos paso a paso" para generar un proceso de pensamiento secuencial antes de proporcionar una respuesta. El segundo enfoque emplea demostraciones humanas elaboradas paso a paso para guiar el proceso de razonamiento del modelo. El tercero automatiza la generación de demostraciones razonadas con el enunciado "Pensemos paso a paso". Este enfoque a veces conduce a errores de razonamiento, resaltando la necesidad de diversificar las demostraciones para mitigar sus efectos engañosos. Sin embargo, las demostraciones diversas plantean desafíos para representaciones efectivas. En este trabajo, proponemos ECHO, un método de estímulo de Cadena de Pensamiento autoarmonizado. Consolida diversos caminos de solución en un patrón de solución uniforme y efectivo. ECHO demuestra el mejor rendimiento general en tres dominios de razonamiento.

English

Chain-of-Thought (CoT) prompting reveals that large language models are capable of performing complex reasoning via intermediate steps. CoT prompting is primarily categorized into three approaches. The first approach utilizes straightforward prompts like ``Let's think step by step'' to generate a sequential thought process before yielding an answer. The second approach makes use of human-crafted, step-by-step demonstrations to guide the model's reasoning process. The third automates the generation of reasoned demonstrations with the 'Let's think step by step'.This approach sometimes leads to reasoning errors, highlighting the need to diversify demonstrations to mitigate its misleading effects. However, diverse demonstrations pose challenges for effective representations. In this work, we propose ECHO, a self-harmonized chain-of-thought prompting method. It consolidates diverse solution paths into a uniform and effective solution pattern.ECHO demonstrates the best overall performance across three reasoning domains.