ChatPaper.aiChatPaper

Mischung von Argumentationen: Lehren Sie große Sprachmodelle, mit adaptiven Strategien zu argumentieren

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

July 1, 2025
Autoren: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeichnen sich bei komplexen Aufgaben durch fortschrittliche Prompting-Techniken wie Chain-of-Thought (CoT) und Tree-of-Thought (ToT) aus, doch ihre Abhängigkeit von manuell erstellten, aufgaben-spezifischen Prompts schränkt die Anpassungsfähigkeit und Effizienz ein. Wir stellen Mixture of Reasoning (MoR) vor, ein Trainingsframework, das verschiedene Denkstrategien in LLMs integriert, um autonomes, aufgabenadaptives Denken ohne externe Prompt-Engineering zu ermöglichen. MoR besteht aus zwei Phasen: Thought Generation, bei der Vorlagen für Denkketten mit Modellen wie GPT-4o erstellt werden, und SFT Dataset Construction, bei der diese Vorlagen mit Benchmark-Datensätzen für überwachtes Fein-Tuning kombiniert werden. Unsere Experimente zeigen, dass MoR die Leistung signifikant verbessert, wobei MoR150 mit CoT-Prompting 0,730 (2,2 % Verbesserung) und im Vergleich zu den Baselines 0,734 (13,5 % Verbesserung) erreicht. MoR eliminiert den Bedarf an aufgaben-spezifischen Prompts und bietet eine generalisierbare Lösung für robustes Denken über diverse Aufgaben hinweg.
English
Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.
PDF31July 2, 2025