ChatPaper.aiChatPaper

ToolOrchestra: Intelligentie verhogen via efficiënte orchestratie van modellen en tools

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
Auteurs: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Samenvatting

Grote taalmodellen zijn krachtige generalisten, maar het oplossen van diepe en complexe problemen zoals die van de 'Humanity's Last Exam' (HLE) blijft zowel conceptueel uitdagend als rekenkundig kostbaar. Wij tonen aan dat kleine orchestrators die andere modellen en een verscheidenheid aan tools beheren, zowel de bovengrens van intelligentie kunnen verleggen als de efficiëntie bij het oplossen van moeilijke agent-taken kunnen verbeteren. Wij introduceren ToolOrchestra, een methode voor het trainen van kleine orchestrators die intelligente tools coördineren. ToolOrchestra gebruikt expliciet reinforcement learning met beloningen die rekening houden met uitkomsten, efficiëntie en gebruikersvoorkeuren. Met ToolOrchestra produceren wij Orchestrator, een 8B-model dat een hogere nauwkeurigheid bereikt tegen lagere kosten dan eerdere toolgebruikende agents, en dat tegelijkertijd afstemt op gebruikersvoorkeuren over welke tools voor een bepaalde query moeten worden gebruikt. Op HLE behaalt Orchestrator een score van 37,1%, waarmee het GPT-5 (35,1%) overtreft terwijl het 2,5x efficiënter is. Op tau2-Bench en FRAMES overtreft Orchestrator GPT-5 met een ruime marge terwijl het slechts ongeveer 30% van de kosten gebruikt. Uitgebreide analyse toont aan dat Orchestrator de beste balans bereikt tussen prestaties en kosten volgens meerdere metrieken, en robuust generaliseert naar onbekende tools. Deze resultaten tonen aan dat het samenstellen van diverse tools met een lichtgewicht orchestratiemodel zowel efficiënter als effectiever is dan bestaande methoden, waardoor de weg wordt geëffend voor praktische en schaalbare tool-augmented redeneersystemen.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025