ChatPaper.aiChatPaper

ToolOrchestra: Elevare l'Intelligenza tramite un'Orchestrazione Efficiente di Modelli e Strumenti

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
Autori: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Abstract

I grandi modelli linguistici sono potenti generalisti, ma risolvere problemi profondi e complessi come quelli dell'Esame Finale dell'Umanità (HLE) rimane sia concettualmente impegnativo che computazionalmente costoso. Dimostriamo che piccoli orchestratori che gestiscono altri modelli e una varietà di strumenti possono sia spingere il limite superiore dell'intelligenza sia migliorare l'efficienza nella risoluzione di compiti agentici difficili. Introduciamo ToolOrchestra, un metodo per addestrare piccoli orchestratori che coordinano strumenti intelligenti. ToolOrchestra utilizza esplicitamente l'apprendimento per rinforzo con ricompense basate sui risultati, sull'efficienza e sulle preferenze dell'utente. Utilizzando ToolOrchestra, produciamo Orchestrator, un modello da 8B che raggiunge una maggiore accuratezza a un costo inferiore rispetto ai precedenti agenti che utilizzano strumenti, allineandosi alle preferenze dell'utente su quali strumenti utilizzare per una determinata query. Su HLE, Orchestrator ottiene un punteggio del 37.1%, superando GPT-5 (35.1%) con un'efficienza 2.5 volte maggiore. Su tau2-Bench e FRAMES, Orchestrator supera GPT-5 di un ampio margine utilizzando solo circa il 30% del costo. Un'analisi approfondita mostra che Orchestrator raggiunge il miglior compromesso tra prestazioni e costo secondo molteplici metriche e generalizza in modo robusto a strumenti non visti. Questi risultati dimostrano che comporre strumenti diversificati con un modello di orchestrazione leggero è sia più efficiente che più efficace dei metodi esistenti, spianando la strada a sistemi di ragionamento potenziati da strumenti pratici e scalabili.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025