ToolOrchestra: 효율적인 모델 및 도구 오케스트레이션을 통한 지능 향상
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
November 26, 2025
저자: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
초록
대규모 언어 모델은 강력한 범용 시스템이지만, '인류 최종 시험(HLE)'과 같은 심층적이고 복잡한 문제를 해결하는 것은 개념적으로나 계산 비용 측면에서 여전히 어려운 과제입니다. 본 연구에서는 소규모 오케스트레이터가 다른 모델과 다양한 도구들을 관리함으로써 지능의 상한선을 높이고 동시에 복잡한 에이전트 과제 해결의 효율성을 개선할 수 있음을 보여줍니다. 우리는 지능형 도구들을 조율하는 소규모 오케스트레이터를 훈련시키는 방법인 ToolOrchestra를 소개합니다. ToolOrchestra는 결과 인지, 효율성 인지, 사용자 선호도 인지 보상을 활용한 명시적 강화 학습을 사용합니다. ToolOrchestra를 통해 우리는 80억 파라미터 규모의 Orchestrator 모델을 개발했으며, 이 모델은 주어진 질의에 대해 어떤 도구를 사용할지에 대한 사용자 선호도에 부합하면서도 기존 도구 활용 에이전트들보다 낮은 비용으로 더 높은 정확도를 달성합니다. HLE에서 Orchestrator는 37.1%의 점수를 기록하여 GPT-5(35.1%)를 능가하는 동시에 2.5배 더 효율적입니다. tau2-Bench와 FRAMES 벤치마크에서는 GPT-5를 큰 차이로 앞지르면서도 약 30%의 비용만을 사용합니다. 포괄적인 분석 결과, Orchestrator는 여러 메트릭 하에서 성능과 비용 간의 최적의 균형을 달성하며, 보지 못한 도구에 대해서도 강건하게 일반화됩니다. 이러한 결과는 다양한 도구들을 경량 오케스트레이션 모델로 구성하는 것이 기존 방법보다 더 효율적이고 효과적임을 입증하며, 실용적이고 확장 가능한 도구 증강 추론 시스템으로 가는 길을 열어줍니다.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.