DOTS : Apprentissage de la Raisonnement Dynamique dans les LLM via la Recherche de Trajectoires de Raisonnement Optimal
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
Auteurs: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
Résumé
Améliorer la capacité des grands modèles de langage (GML) dans le raisonnement a suscité un intérêt significatif ces dernières années. Des études antérieures ont démontré l'efficacité de diverses stratégies de sollicitation pour aider les GML dans le raisonnement (appelées "actions de raisonnement"), telles que la réflexion étape par étape, la réflexion avant de répondre, la résolution avec des programmes et leurs combinaisons. Cependant, ces approches appliquaient souvent des actions de raisonnement statiques et prédéfinies de manière uniforme à toutes les questions, sans tenir compte des caractéristiques spécifiques de chaque question ou de la capacité du GML à résoudre la tâche. Dans cet article, nous proposons DOTS, une approche permettant aux GML de raisonner de manière dynamique via une recherche de trajectoire de raisonnement optimale, adaptée aux caractéristiques spécifiques de chaque question et à la capacité inhérente du GML à résoudre la tâche. Notre approche comprend trois étapes clés : i) définir des modules d'actions de raisonnement atomiques qui peuvent être composés en différentes trajectoires d'actions de raisonnement ; ii) rechercher la trajectoire d'action optimale pour chaque question d'entraînement par une exploration itérative et une évaluation pour le GML résolvant la tâche spécifique ; et iii) utiliser les trajectoires optimales collectées pour entraîner un GML à planifier les trajectoires de raisonnement des questions non vues. En particulier, nous proposons deux paradigmes d'apprentissage, à savoir, affiner un GML externe en tant que planificateur pour guider le GML résolvant la tâche, ou affiner directement le GML résolvant la tâche avec une capacité internalisée pour la planification des actions de raisonnement. Nos expériences sur huit tâches de raisonnement montrent que notre méthode surpasse de manière constante les techniques de raisonnement statiques et l'approche de réglage d'instructions de base. Une analyse plus approfondie révèle que notre méthode permet aux GML d'ajuster leur calcul en fonction de la complexité du problème, en allouant une réflexion et un raisonnement plus approfondis aux problèmes plus difficiles.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.Summary
AI-Generated Summary