El impacto de la longitud de los pasos de razonamiento en los modelos de lenguaje de gran escala
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
Autores: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
Resumen
La Cadena de Pensamiento (CoT, por sus siglas en inglés) es significativa para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, la correlación entre la efectividad de CoT y la longitud de los pasos de razonamiento en las indicaciones sigue siendo en gran parte desconocida. Para arrojar luz sobre esto, hemos realizado varios experimentos empíricos para explorar estas relaciones. Específicamente, diseñamos experimentos que expanden y comprimen los pasos de razonamiento dentro de las demostraciones de CoT, manteniendo todos los demás factores constantes. Hemos obtenido los siguientes hallazgos clave. Primero, los resultados indican que alargar los pasos de razonamiento en las indicaciones, incluso sin agregar nueva información, mejora considerablemente las capacidades de razonamiento de los LLMs en múltiples conjuntos de datos. Por el contrario, acortar los pasos de razonamiento, incluso preservando la información clave, reduce significativamente las capacidades de razonamiento de los modelos. Este hallazgo resalta la importancia del número de pasos en las indicaciones de CoT y proporciona una guía práctica para aprovechar mejor el potencial de los LLMs en escenarios de resolución de problemas complejos. Segundo, también investigamos la relación entre el rendimiento de CoT y las justificaciones utilizadas en las demostraciones. Sorprendentemente, los resultados muestran que incluso justificaciones incorrectas pueden producir resultados favorables si mantienen la longitud necesaria de inferencia. Tercero, observamos que las ventajas de aumentar los pasos de razonamiento dependen de la tarea: las tareas más simples requieren menos pasos, mientras que las tareas complejas se benefician significativamente de secuencias de inferencia más largas.
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.