DOTS : Apprentissage de la Raisonnement Dynamique dans les LLM via la Recherche de Trajectoires de Raisonnement Optimal

papers.abstract

Améliorer la capacité des grands modèles de langage (GML) dans le raisonnement a suscité un intérêt significatif ces dernières années. Des études antérieures ont démontré l'efficacité de diverses stratégies de sollicitation pour aider les GML dans le raisonnement (appelées "actions de raisonnement"), telles que la réflexion étape par étape, la réflexion avant de répondre, la résolution avec des programmes et leurs combinaisons. Cependant, ces approches appliquaient souvent des actions de raisonnement statiques et prédéfinies de manière uniforme à toutes les questions, sans tenir compte des caractéristiques spécifiques de chaque question ou de la capacité du GML à résoudre la tâche. Dans cet article, nous proposons DOTS, une approche permettant aux GML de raisonner de manière dynamique via une recherche de trajectoire de raisonnement optimale, adaptée aux caractéristiques spécifiques de chaque question et à la capacité inhérente du GML à résoudre la tâche. Notre approche comprend trois étapes clés : i) définir des modules d'actions de raisonnement atomiques qui peuvent être composés en différentes trajectoires d'actions de raisonnement ; ii) rechercher la trajectoire d'action optimale pour chaque question d'entraînement par une exploration itérative et une évaluation pour le GML résolvant la tâche spécifique ; et iii) utiliser les trajectoires optimales collectées pour entraîner un GML à planifier les trajectoires de raisonnement des questions non vues. En particulier, nous proposons deux paradigmes d'apprentissage, à savoir, affiner un GML externe en tant que planificateur pour guider le GML résolvant la tâche, ou affiner directement le GML résolvant la tâche avec une capacité internalisée pour la planification des actions de raisonnement. Nos expériences sur huit tâches de raisonnement montrent que notre méthode surpasse de manière constante les techniques de raisonnement statiques et l'approche de réglage d'instructions de base. Une analyse plus approfondie révèle que notre méthode permet aux GML d'ajuster leur calcul en fonction de la complexité du problème, en allouant une réflexion et un raisonnement plus approfondis aux problèmes plus difficiles.

English

Enhancing the capability of large language models (LLMs) in reasoning has gained significant attention in recent years. Previous studies have demonstrated the effectiveness of various prompting strategies in aiding LLMs in reasoning (called "reasoning actions"), such as step-by-step thinking, reflecting before answering, solving with programs, and their combinations. However, these approaches often applied static, predefined reasoning actions uniformly to all questions, without considering the specific characteristics of each question or the capability of the task-solving LLM. In this paper, we propose DOTS, an approach enabling LLMs to reason dynamically via optimal reasoning trajectory search, tailored to the specific characteristics of each question and the inherent capability of the task-solving LLM. Our approach involves three key steps: i) defining atomic reasoning action modules that can be composed into various reasoning action trajectories; ii) searching for the optimal action trajectory for each training question through iterative exploration and evaluation for the specific task-solving LLM; and iii) using the collected optimal trajectories to train an LLM to plan for the reasoning trajectories of unseen questions. In particular, we propose two learning paradigms, i.e., fine-tuning an external LLM as a planner to guide the task-solving LLM, or directly fine-tuning the task-solving LLM with an internalized capability for reasoning actions planning. Our experiments across eight reasoning tasks show that our method consistently outperforms static reasoning techniques and the vanilla instruction tuning approach. Further analysis reveals that our method enables LLMs to adjust their computation based on problem complexity, allocating deeper thinking and reasoning to harder problems.

DOTS : Apprentissage de la Raisonnement Dynamique dans les LLM via la Recherche de Trajectoires de Raisonnement Optimal

DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

papers.abstract

Support