DOTS: Apprendimento per Ragionare in Modo Dinamico negli LLM tramite Ricerca di Traiettorie Ottimali di Ragionamento
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
Autori: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
Abstract
Potenziare la capacità dei grandi modelli linguistici (LLM) nel ragionamento ha attirato notevole attenzione negli ultimi anni. Studi precedenti hanno dimostrato l'efficacia di varie strategie di sollecitazione nell'aiutare i LLM nel ragionamento (chiamate "azioni di ragionamento"), come il pensiero passo dopo passo, la riflessione prima di rispondere, la risoluzione con programmi e le loro combinazioni. Tuttavia, questi approcci spesso applicavano staticamente azioni di ragionamento predefinite uniformemente a tutte le domande, senza considerare le caratteristiche specifiche di ciascuna domanda o la capacità del LLM risolutore del compito. In questo articolo, proponiamo DOTS, un approccio che consente ai LLM di ragionare dinamicamente tramite la ricerca della traiettoria di ragionamento ottimale, adattata alle caratteristiche specifiche di ciascuna domanda e alla capacità intrinseca del LLM risolutore del compito. Il nostro approccio coinvolge tre fasi chiave: i) definire moduli di azione di ragionamento atomici che possono essere composti in varie traiettorie di azione di ragionamento; ii) cercare la traiettoria di azione ottimale per ciascuna domanda di addestramento attraverso l'esplorazione iterativa e la valutazione per il LLM risolutore del compito specifico; e iii) utilizzare le traiettorie ottimali raccolte per addestrare un LLM a pianificare le traiettorie di ragionamento delle domande non viste. In particolare, proponiamo due paradigmi di apprendimento, ovvero il raffinamento di un LLM esterno come pianificatore per guidare il LLM risolutore del compito, o il raffinamento diretto del LLM risolutore del compito con una capacità internalizzata per la pianificazione delle azioni di ragionamento. I nostri esperimenti su otto compiti di ragionamento mostrano che il nostro metodo supera costantemente le tecniche di ragionamento statiche e l'approccio di sintonizzazione delle istruzioni di base. Un'analisi ulteriore rivela che il nostro metodo consente ai LLM di adattare la loro computazione in base alla complessità del problema, allocando un pensiero e un ragionamento più profondi ai problemi più difficili.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.