Razonamiento de Cadena de Pensamiento Sin Indicaciones
Chain-of-Thought Reasoning Without Prompting
February 15, 2024
Autores: Xuezhi Wang, Denny Zhou
cs.AI
Resumen
En la mejora de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), investigaciones previas se han centrado principalmente en técnicas específicas de prompting, como el prompting de cadena de pensamiento (CoT, por sus siglas en inglés) en modalidad few-shot o zero-shot. Estos métodos, aunque efectivos, suelen implicar un proceso de ingeniería de prompts manualmente intensivo. Nuestro estudio adopta un enfoque novedoso al plantear la pregunta: ¿Pueden los LLMs razonar de manera efectiva sin prompting? Nuestros hallazgos revelan que, de manera intrigante, las rutas de razonamiento CoT pueden ser elicitadas de LLMs preentrenados simplemente alterando el proceso de decodificación. En lugar de la decodificación codiciosa convencional, investigamos los tokens alternativos top-k, descubriendo que las rutas CoT están frecuentemente inherentes en estas secuencias. Este enfoque no solo evita los factores de confusión asociados al prompting, sino que también nos permite evaluar las habilidades de razonamiento intrínsecas de los LLMs. Además, observamos que la presencia de una CoT en la ruta de decodificación se correlaciona con una mayor confianza en la respuesta decodificada del modelo. Esta métrica de confianza diferencia efectivamente entre rutas CoT y no CoT. Estudios empíricos extensos en varios benchmarks de razonamiento muestran que la propuesta de decodificación CoT supera sustancialmente a la decodificación codiciosa estándar.
English
In enhancing the reasoning capabilities of large language models (LLMs),
prior research primarily focuses on specific prompting techniques such as
few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while
effective, often involve manually intensive prompt engineering. Our study takes
a novel approach by asking: Can LLMs reason effectively without prompting? Our
findings reveal that, intriguingly, CoT reasoning paths can be elicited from
pre-trained LLMs by simply altering the decoding process. Rather than
conventional greedy decoding, we investigate the top-k alternative tokens,
uncovering that CoT paths are frequently inherent in these sequences. This
approach not only bypasses the confounders of prompting but also allows us to
assess the LLMs' intrinsic reasoning abilities. Moreover, we observe
that the presence of a CoT in the decoding path correlates with a higher
confidence in the model's decoded answer. This confidence metric effectively
differentiates between CoT and non-CoT paths. Extensive empirical studies on
various reasoning benchmarks show that the proposed CoT-decoding substantially
outperforms the standard greedy decoding.Summary
AI-Generated Summary