DOTS: Apprendimento per Ragionare in Modo Dinamico negli LLM tramite Ricerca di Traiettorie Ottimali di Ragionamento

Abstract

Potenziare la capacità dei grandi modelli linguistici (LLM) nel ragionamento ha attirato notevole attenzione negli ultimi anni. Studi precedenti hanno dimostrato l'efficacia di varie strategie di sollecitazione nell'aiutare i LLM nel ragionamento (chiamate "azioni di ragionamento"), come il pensiero passo dopo passo, la riflessione prima di rispondere, la risoluzione con programmi e le loro combinazioni. Tuttavia, questi approcci spesso applicavano staticamente azioni di ragionamento predefinite uniformemente a tutte le domande, senza considerare le caratteristiche specifiche di ciascuna domanda o la capacità del LLM risolutore del compito. In questo articolo, proponiamo DOTS, un approccio che consente ai LLM di ragionare dinamicamente tramite la ricerca della traiettoria di ragionamento ottimale, adattata alle caratteristiche specifiche di ciascuna domanda e alla capacità intrinseca del LLM risolutore del compito. Il nostro approccio coinvolge tre fasi chiave: i) definire moduli di azione di ragionamento atomici che possono essere composti in varie traiettorie di azione di ragionamento; ii) cercare la traiettoria di azione ottimale per ciascuna domanda di addestramento attraverso l'esplorazione iterativa e la valutazione per il LLM risolutore del compito specifico; e iii) utilizzare le traiettorie ottimali raccolte per addestrare un LLM a pianificare le traiettorie di ragionamento delle domande non viste. In particolare, proponiamo due paradigmi di apprendimento, ovvero il raffinamento di un LLM esterno come pianificatore per guidare il LLM risolutore del compito, o il raffinamento diretto del LLM risolutore del compito con una capacità internalizzata per la pianificazione delle azioni di ragionamento. I nostri esperimenti su otto compiti di ragionamento mostrano che il nostro metodo supera costantemente le tecniche di ragionamento statiche e l'approccio di sintonizzazione delle istruzioni di base. Un'analisi ulteriore rivela che il nostro metodo consente ai LLM di adattare la loro computazione in base alla complessità del problema, allocando un pensiero e un ragionamento più profondi ai problemi più difficili.

English

Enhancing the capability of large language models (LLMs) in reasoning has gained significant attention in recent years. Previous studies have demonstrated the effectiveness of various prompting strategies in aiding LLMs in reasoning (called "reasoning actions"), such as step-by-step thinking, reflecting before answering, solving with programs, and their combinations. However, these approaches often applied static, predefined reasoning actions uniformly to all questions, without considering the specific characteristics of each question or the capability of the task-solving LLM. In this paper, we propose DOTS, an approach enabling LLMs to reason dynamically via optimal reasoning trajectory search, tailored to the specific characteristics of each question and the inherent capability of the task-solving LLM. Our approach involves three key steps: i) defining atomic reasoning action modules that can be composed into various reasoning action trajectories; ii) searching for the optimal action trajectory for each training question through iterative exploration and evaluation for the specific task-solving LLM; and iii) using the collected optimal trajectories to train an LLM to plan for the reasoning trajectories of unseen questions. In particular, we propose two learning paradigms, i.e., fine-tuning an external LLM as a planner to guide the task-solving LLM, or directly fine-tuning the task-solving LLM with an internalized capability for reasoning actions planning. Our experiments across eight reasoning tasks show that our method consistently outperforms static reasoning techniques and the vanilla instruction tuning approach. Further analysis reveals that our method enables LLMs to adjust their computation based on problem complexity, allocating deeper thinking and reasoning to harder problems.

DOTS: Apprendimento per Ragionare in Modo Dinamico negli LLM tramite Ricerca di Traiettorie Ottimali di Ragionamento

DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

Abstract

Support