DOTS: Das Lernen, dynamisch in LLMs zu argumentieren, durch optimale Argumentationspfad-Suche

papers.abstract

Die Verbesserung der Fähigkeit großer Sprachmodelle (LLMs) im Bereich des Schlussfolgerns hat in den letzten Jahren erhebliche Aufmerksamkeit erlangt. Frühere Studien haben die Wirksamkeit verschiedener Aufforderungsstrategien zur Unterstützung von LLMs im Schlussfolgern (sogenannte "Schlussfolgerungsaktionen") gezeigt, wie beispielsweise schrittweises Denken, Nachdenken vor dem Antworten, Lösen mit Programmen und deren Kombinationen. Diese Ansätze haben jedoch oft statische, vordefinierte Schlussfolgerungsaktionen einheitlich auf alle Fragen angewendet, ohne die spezifischen Merkmale jeder Frage oder die Fähigkeit des aufgabenlösenden LLM zu berücksichtigen. In diesem Artikel schlagen wir DOTS vor, einen Ansatz, der es LLMs ermöglicht, dynamisch über die optimale Suche nach Schlussfolgerungswegen zu schlussfolgern, die auf den spezifischen Merkmalen jeder Frage und der inhärenten Fähigkeit des aufgabenlösenden LLM zugeschnitten sind. Unser Ansatz umfasst drei Schlüsselschritte: i) Definition atomarer Schlussfolgerungsaktionsmodule, die in verschiedene Schlussfolgerungsaktionspfade zusammengesetzt werden können; ii) Suche nach dem optimalen Aktionspfad für jede Trainingsfrage durch iterative Exploration und Bewertung für den spezifischen aufgabenlösenden LLM; und iii) Verwendung der gesammelten optimalen Pfade, um einen LLM darauf zu trainieren, die Schlussfolgerungswege von unerwarteten Fragen zu planen. Insbesondere schlagen wir zwei Lernparadigmen vor, nämlich das Feinabstimmen eines externen LLM als Planer zur Anleitung des aufgabenlösenden LLM oder das direkte Feinabstimmen des aufgabenlösenden LLM mit einer internalisierten Fähigkeit zur Planung von Schlussfolgerungsaktionen. Unsere Experimente über acht Schlussfolgerungsaufgaben zeigen, dass unsere Methode konsistent bessere Leistungen erbringt als statische Schlussfolgerungstechniken und der herkömmliche Anpassungsansatz. Eine weitere Analyse zeigt, dass unsere Methode es LLMs ermöglicht, ihre Berechnungen basierend auf der Problemkomplexität anzupassen, indem sie tiefgreifendes Denken und Schlussfolgerungen schwierigeren Problemen zuweisen.

English

Enhancing the capability of large language models (LLMs) in reasoning has gained significant attention in recent years. Previous studies have demonstrated the effectiveness of various prompting strategies in aiding LLMs in reasoning (called "reasoning actions"), such as step-by-step thinking, reflecting before answering, solving with programs, and their combinations. However, these approaches often applied static, predefined reasoning actions uniformly to all questions, without considering the specific characteristics of each question or the capability of the task-solving LLM. In this paper, we propose DOTS, an approach enabling LLMs to reason dynamically via optimal reasoning trajectory search, tailored to the specific characteristics of each question and the inherent capability of the task-solving LLM. Our approach involves three key steps: i) defining atomic reasoning action modules that can be composed into various reasoning action trajectories; ii) searching for the optimal action trajectory for each training question through iterative exploration and evaluation for the specific task-solving LLM; and iii) using the collected optimal trajectories to train an LLM to plan for the reasoning trajectories of unseen questions. In particular, we propose two learning paradigms, i.e., fine-tuning an external LLM as a planner to guide the task-solving LLM, or directly fine-tuning the task-solving LLM with an internalized capability for reasoning actions planning. Our experiments across eight reasoning tasks show that our method consistently outperforms static reasoning techniques and the vanilla instruction tuning approach. Further analysis reveals that our method enables LLMs to adjust their computation based on problem complexity, allocating deeper thinking and reasoning to harder problems.

DOTS: Das Lernen, dynamisch in LLMs zu argumentieren, durch optimale Argumentationspfad-Suche

DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

papers.abstract

Support