ChatPaper.aiChatPaper

Mengsel van Redeneringen: Leer Grote Taalmodellen Redeneren met Adaptieve Strategieën

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

July 1, 2025
Auteurs: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI

Samenvatting

Grote taalmodellen (LLMs) blinken uit in complexe taken dankzij geavanceerde promptingtechnieken zoals Chain-of-Thought (CoT) en Tree-of-Thought (ToT), maar hun afhankelijkheid van handmatig gemaakte, taakspecifieke prompts beperkt de aanpasbaarheid en efficiëntie. Wij introduceren Mixture of Reasoning (MoR), een trainingsframework dat diverse redeneerstrategieën in LLMs integreert voor autonoom, taakadaptief redeneren zonder externe promptengineering. MoR bestaat uit twee fasen: Thought Generation, waarbij redeneerketensjablonen worden gemaakt met modellen zoals GPT-4o, en SFT Dataset Construction, waarbij sjablonen worden gekoppeld aan benchmarkdatasets voor supervised fine-tuning. Onze experimenten tonen aan dat MoR de prestaties aanzienlijk verbetert, waarbij MoR150 een score van 0.730 behaalt (2,2% verbetering) met CoT-prompting en 0.734 (13,5% verbetering) in vergelijking met de basislijnen. MoR elimineert de noodzaak van taakspecifieke prompts en biedt een generaliseerbare oplossing voor robuust redeneren over diverse taken.
English
Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.
PDF31July 2, 2025