Razonamiento de Cadena de Pensamiento Sin IndicacionesChain-of-Thought Reasoning Without Prompting
En la mejora de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), investigaciones previas se han centrado principalmente en técnicas específicas de prompting, como el prompting de cadena de pensamiento (CoT, por sus siglas en inglés) en modalidad few-shot o zero-shot. Estos métodos, aunque efectivos, suelen implicar un proceso de ingeniería de prompts manualmente intensivo. Nuestro estudio adopta un enfoque novedoso al plantear la pregunta: ¿Pueden los LLMs razonar de manera efectiva sin prompting? Nuestros hallazgos revelan que, de manera intrigante, las rutas de razonamiento CoT pueden ser elicitadas de LLMs preentrenados simplemente alterando el proceso de decodificación. En lugar de la decodificación codiciosa convencional, investigamos los tokens alternativos top-k, descubriendo que las rutas CoT están frecuentemente inherentes en estas secuencias. Este enfoque no solo evita los factores de confusión asociados al prompting, sino que también nos permite evaluar las habilidades de razonamiento intrínsecas de los LLMs. Además, observamos que la presencia de una CoT en la ruta de decodificación se correlaciona con una mayor confianza en la respuesta decodificada del modelo. Esta métrica de confianza diferencia efectivamente entre rutas CoT y no CoT. Estudios empíricos extensos en varios benchmarks de razonamiento muestran que la propuesta de decodificación CoT supera sustancialmente a la decodificación codiciosa estándar.