ChatPaper.aiChatPaper

ToolOrchestra: Steigerung der Intelligenz durch effiziente Orchestrierung von Modellen und Werkzeugen

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
papers.authors: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

papers.abstract

Große Sprachmodelle sind leistungsstarke Allrounder, doch die Lösung tiefgreifender und komplexer Probleme wie die der "Humanity's Last Exam" (HLE) bleibt sowohl konzeptionell anspruchsvoll als auch rechenintensiv. Wir zeigen, dass kleine Orchestratoren, die andere Modelle und eine Vielzahl von Werkzeugen verwalten, sowohl die Obergrenze der Intelligenz erweitern als auch die Effizienz bei der Lösung schwieriger agentenbasierter Aufgaben verbessern können. Wir stellen ToolOrchestra vor, eine Methode zum Training kleiner Orchestratoren, die intelligente Werkzeuge koordinieren. ToolOrchestra nutzt explizit bestärkendes Lernen mit belohnungsbasierten, effizienz- und nutzerpräferenzsensiblen Belohnungsfunktionen. Mit ToolOrchestra erzeugen wir Orchestrator, ein 8B-Modell, das eine höhere Genauigkeit bei geringeren Kosten als bisherige Werkzeugnutzungs-Agenten erreicht und gleichzeitig mit den Nutzerpräferenzen bezüglich der Werkzeugauswahl für eine gegebene Anfrage übereinstimmt. Bei HLE erzielt Orchestrator eine Punktzahl von 37,1 % und übertrifft damit GPT-5 (35,1 %) bei einer 2,5-fachen Effizienzsteigerung. Auf tau2-Bench und FRAMES übertrifft Orchestrator GPT-5 mit deutlichem Abstand, während nur etwa 30 % der Kosten anfallen. Umfangreiche Analysen zeigen, dass Orchestrator unter verschiedenen Metriken die beste Balance zwischen Leistung und Kosten erreicht und robust auf unbekannte Werkzeuge generalisiert. Diese Ergebnisse demonstrieren, dass die Zusammensetzung diverser Werkzeuge mit einem leichtgewichtigen Orchestrierungsmodell sowohl effizienter als auch wirksamer ist als bestehende Methoden und den Weg für praktische und skalierbare werkzeuggestützte Reasoning-Systeme ebnet.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025