ChatPaper.aiChatPaper

ToolOrchestra:効率的なモデルとツールのオーケストレーションによる知性の向上

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
著者: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

要旨

大規模言語モデルは強力なジェネラリストであるものの、Humanity's Last Exam (HLE) のような深遠で複雑な問題の解決は、概念的にも計算量的にも依然として困難な課題である。本論文では、他のモデルや多様なツールを管理する小型のオーケストレーターが、知性の上限を押し上げるとともに、困難なエージェント課題の解決効率を向上させうることを示す。我々は、インテリジェントツールを調整する小型オーケストレーターを訓練する手法「ToolOrchestra」を提案する。ToolOrchestraは、結果認識・効率認識・ユーザー選好認識の報酬を用いた強化学習を明示的に採用する。本手法により開発した80億パラメータモデル「Orchestrator」は、従来のツール利用エージェントよりも低コストで高精度な性能を発揮し、クエリに応じたツール選択においてユーザー選好との整合性を実現した。HLEでは37.1%のスコアを達成し、GPT-5(35.1%)を性能で上回りつつ、計算効率は2.5倍に向上した。tau2-BenchとFRAMESでは、GPT-5を大幅に上回る性能を、コスト約30%で達成した。詳細な分析により、Orchestratorが複数指標において性能とコストの最適なトレードオフを実現し、未見のツールに対しても頑健に汎化することを確認した。これらの結果は、多様なツールを軽量なオーケストレーションモデルで構成することが、既存手法よりも効率的かつ効果的であることを示し、実用的でスケーラブルなツール拡張推論システムへの道を開くものである。
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025