ToolOrchestra : Élever l'intelligence par une orchestration efficace des modèles et des outils
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
November 26, 2025
papers.authors: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
papers.abstract
Les grands modèles de langage sont des généralistes puissants, mais la résolution de problèmes profonds et complexes tels que ceux de l'Examen Final de l'Humanité (HLE) reste à la fois conceptuellement difficile et coûteuse en calcul. Nous montrons que de petits orchestrateurs gérant d'autres modèles et une variété d'outils peuvent à la fois repousser les limites supérieures de l'intelligence et améliorer l'efficacité dans la résolution de tâches agentiques difficiles. Nous présentons ToolOrchestra, une méthode pour entraîner de petits orchestrateurs qui coordonnent des outils intelligents. ToolOrchestra utilise explicitement l'apprentissage par renforcement avec des récompenses tenant compte des résultats, de l'efficacité et des préférences utilisateur. En utilisant ToolOrchestra, nous produisons Orchestrator, un modèle de 8B qui atteint une précision supérieure à un coût inférieur par rapport aux agents précédents utilisant des outils, tout en s'alignant sur les préférences des utilisateurs concernant les outils à utiliser pour une requête donnée. Sur HLE, Orchestrator obtient un score de 37,1 %, surpassant GPT-5 (35,1 %) tout en étant 2,5 fois plus efficace. Sur tau2-Bench et FRAMES, Orchestrator dépasse GPT-5 de manière significative tout en n'utilisant qu'environ 30 % du coût. Une analyse approfondie montre qu'Orchestrator atteint le meilleur compromis entre performance et coût selon plusieurs métriques, et généralise robustement à des outils non vus. Ces résultats démontrent que composer des outils diversifiés avec un modèle d'orchestration léger est à la fois plus efficace et plus efficient que les méthodes existantes, ouvrant la voie à des systèmes de raisonnement augmentés par outils pratiques et évolutifs.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.