¿Utilizar CoT o no utilizar CoT? La cadena de pensamiento ayuda principalmente en matemáticas y razonamiento simbólico.

Resumen

La cadena de pensamiento (CoT) a través de la sugerencia es el método de facto para obtener capacidades de razonamiento de los grandes modelos de lenguaje (LLMs). Pero, ¿para qué tipos de tareas resulta realmente útil este "pensamiento" adicional? Para analizar esto, realizamos un metaanálisis cuantitativo que abarca más de 100 artículos que utilizan CoT y llevamos a cabo nuestras propias evaluaciones en 20 conjuntos de datos a través de 14 modelos. Nuestros resultados muestran que CoT proporciona fuertes beneficios de rendimiento principalmente en tareas que implican matemáticas o lógica, con ganancias mucho menores en otros tipos de tareas. En MMLU, generar directamente la respuesta sin CoT conduce a una precisión casi idéntica a la de CoT a menos que la pregunta o la respuesta del modelo contengan un signo igual, lo que indica operaciones y razonamientos simbólicos. A raíz de este hallazgo, analizamos el comportamiento de CoT en estos problemas al separar la planificación y la ejecución y al comparar con LLMs mejorados con herramientas. Gran parte de la mejora de CoT proviene de la mejora en la ejecución simbólica, pero su rendimiento es inferior en comparación con el uso de un solucionador simbólico. Nuestros resultados indican que CoT puede aplicarse selectivamente, manteniendo el rendimiento y ahorrando costos de inferencia. Además, sugieren la necesidad de avanzar más allá de CoT basado en sugerencias hacia nuevos paradigmas que aprovechen mejor la computación intermedia en todo el rango de aplicaciones de LLM.

English

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

¿Utilizar CoT o no utilizar CoT? La cadena de pensamiento ayuda principalmente en matemáticas y razonamiento simbólico.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Resumen

Support