PUNTOS: Aprendizaje para Razonar Dinámicamente en LLMs a través de la Búsqueda de Trayectorias de Razonamiento Óptimas
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
Autores: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
Resumen
Mejorar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en el razonamiento ha recibido una atención significativa en los últimos años. Estudios previos han demostrado la efectividad de diversas estrategias de estímulo para ayudar a los LLMs en el razonamiento (llamadas "acciones de razonamiento"), como el pensamiento paso a paso, reflexionar antes de responder, resolver con programas y sus combinaciones. Sin embargo, estos enfoques a menudo aplicaban acciones de razonamiento estáticas y predefinidas de manera uniforme a todas las preguntas, sin considerar las características específicas de cada pregunta o la capacidad del LLM para resolver la tarea. En este documento, proponemos DOTS, un enfoque que permite a los LLMs razonar dinámicamente a través de la búsqueda de trayectorias de razonamiento óptimas, adaptadas a las características específicas de cada pregunta y a la capacidad inherente del LLM para resolver la tarea. Nuestro enfoque implica tres pasos clave: i) definir módulos de acción de razonamiento atómico que pueden componerse en diversas trayectorias de acción de razonamiento; ii) buscar la trayectoria de acción óptima para cada pregunta de entrenamiento a través de la exploración iterativa y la evaluación para el LLM que resuelve la tarea específica; y iii) utilizar las trayectorias óptimas recopiladas para entrenar a un LLM para planificar las trayectorias de razonamiento de preguntas no vistas. En particular, proponemos dos paradigmas de aprendizaje, es decir, ajustar finamente un LLM externo como planificador para guiar al LLM que resuelve la tarea, o ajustar directamente el LLM que resuelve la tarea con una capacidad internalizada para la planificación de acciones de razonamiento. Nuestros experimentos en ocho tareas de razonamiento muestran que nuestro método supera consistentemente a las técnicas de razonamiento estáticas y al enfoque de ajuste de instrucciones básico. Un análisis adicional revela que nuestro método permite a los LLMs ajustar su computación en función de la complejidad del problema, asignando un pensamiento y razonamiento más profundos a los problemas más difíciles.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.Summary
AI-Generated Summary