DOTS: Leren om Dynamisch te Redeneren in LLMs via Optimaal Redeneertraject Zoeken

Samenvatting

Het verbeteren van de capaciteit van grote taalmodellen (LLM's) in redeneren heeft de afgelopen jaren aanzienlijke aandacht gekregen. Eerdere studies hebben de effectiviteit aangetoond van verschillende aanwijzingsstrategieën om LLM's te helpen bij redeneren (genaamd "redeneeracties"), zoals stapsgewijs denken, reflecteren voor het beantwoorden, oplossen met programma's en hun combinaties. Deze benaderingen pasten echter vaak statische, vooraf gedefinieerde redeneeracties uniform toe op alle vragen, zonder rekening te houden met de specifieke kenmerken van elke vraag of de capaciteit van de taakoplossende LLM. In dit artikel stellen we DOTS voor, een benadering die LLM's in staat stelt om dynamisch te redeneren via optimale redeneertrajectzoekopdrachten, afgestemd op de specifieke kenmerken van elke vraag en de inherente capaciteit van de taakoplossende LLM. Onze benadering omvat drie belangrijke stappen: i) het definiëren van atomaire redeneeractiemodules die kunnen worden samengesteld tot verschillende redeneeractietrajecten; ii) het zoeken naar het optimale actietraject voor elke trainingsvraag door iteratieve verkenning en evaluatie voor de specifieke taakoplossende LLM; en iii) het gebruiken van de verzamelde optimale trajecten om een LLM te trainen om te plannen voor de redeneertrajecten van ongeziene vragen. In het bijzonder stellen we twee leerparadigma's voor, namelijk het fijnafstemmen van een externe LLM als planner om de taakoplossende LLM te begeleiden, of rechtstreeks het fijnafstemmen van de taakoplossende LLM met een geïnternaliseerde capaciteit voor redeneeractieplanning. Onze experimenten over acht redeneertaken tonen aan dat onze methode consequent beter presteert dan statische redeneertechnieken en de standaard instructieafstemmingsbenadering. Verder onderzoek onthult dat onze methode LLM's in staat stelt hun berekeningen aan te passen op basis van probleemcomplexiteit, waarbij dieper denken en redeneren wordt toegewezen aan moeilijkere problemen.

English

Enhancing the capability of large language models (LLMs) in reasoning has gained significant attention in recent years. Previous studies have demonstrated the effectiveness of various prompting strategies in aiding LLMs in reasoning (called "reasoning actions"), such as step-by-step thinking, reflecting before answering, solving with programs, and their combinations. However, these approaches often applied static, predefined reasoning actions uniformly to all questions, without considering the specific characteristics of each question or the capability of the task-solving LLM. In this paper, we propose DOTS, an approach enabling LLMs to reason dynamically via optimal reasoning trajectory search, tailored to the specific characteristics of each question and the inherent capability of the task-solving LLM. Our approach involves three key steps: i) defining atomic reasoning action modules that can be composed into various reasoning action trajectories; ii) searching for the optimal action trajectory for each training question through iterative exploration and evaluation for the specific task-solving LLM; and iii) using the collected optimal trajectories to train an LLM to plan for the reasoning trajectories of unseen questions. In particular, we propose two learning paradigms, i.e., fine-tuning an external LLM as a planner to guide the task-solving LLM, or directly fine-tuning the task-solving LLM with an internalized capability for reasoning actions planning. Our experiments across eight reasoning tasks show that our method consistently outperforms static reasoning techniques and the vanilla instruction tuning approach. Further analysis reveals that our method enables LLMs to adjust their computation based on problem complexity, allocating deeper thinking and reasoning to harder problems.

DOTS: Leren om Dynamisch te Redeneren in LLMs via Optimaal Redeneertraject Zoeken

DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

Samenvatting

Support