推論の混合:大規模言語モデルに適応的戦略を用いた推論を教える
Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
July 1, 2025
著者: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI
要旨
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)やTree-of-Thought(ToT)といった高度なプロンプト技術を通じて複雑なタスクに優れた性能を発揮しますが、手動で作成されたタスク固有のプロンプトへの依存が適応性と効率性を制限しています。本論文では、Mixture of Reasoning(MoR)を紹介します。これは、外部のプロンプトエンジニアリングを必要とせず、多様な推論戦略をLLMに組み込むことで自律的かつタスク適応的な推論を実現するトレーニングフレームワークです。MoRは2つのフェーズで構成されます:Thought Generationでは、GPT-4oなどのモデルを使用して推論チェーンのテンプレートを作成し、SFT Dataset Constructionでは、テンプレートをベンチマークデータセットとペアリングして教師ありファインチューニングを行います。実験結果は、MoRが性能を大幅に向上させることを示しており、MoR150はCoTプロンプトを使用して0.730(2.2%の改善)、ベースラインと比較して0.734(13.5%の改善)を達成しました。MoRはタスク固有のプロンプトを不要とし、多様なタスクにわたる堅牢な推論のための汎用的なソリューションを提供します。
English
Large language models (LLMs) excel in complex tasks through advanced
prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but
their reliance on manually crafted, task-specific prompts limits adaptability
and efficiency. We introduce Mixture of Reasoning (MoR), a training framework
that embeds diverse reasoning strategies into LLMs for autonomous,
task-adaptive reasoning without external prompt engineering. MoR has two
phases: Thought Generation, creating reasoning chain templates with models like
GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets
for supervised fine-tuning.Our experiments show that MoR significantly enhances
performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting
and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need
for task-specific prompts, offering a generalizable solution for robust
reasoning across diverse tasks.