ChatPaper.aiChatPaper

ToolOrchestra: Повышение интеллекта за счет эффективной оркестровки моделей и инструментов

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
Авторы: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Аннотация

Крупные языковые модели являются мощными универсальными системами, однако решение сложных и глубоких проблем, таких как задачи экзамена "Последний рубеж человечества" (HLE), остается как концептуально сложным, так и вычислительно затратным. Мы демонстрируем, что небольшие оркестраторы, управляющие другими моделями и разнообразными инструментами, могут как повысить верхнюю границу интеллектуальных возможностей, так и улучшить эффективность решения сложных агентских задач. Мы представляем ToolOrchestra — метод обучения небольших оркестраторов, координирующих работу интеллектуальных инструментов. ToolOrchestra явным образом использует обучение с подкреплением с учетом наград, ориентированных на результат, эффективность и предпочтения пользователя. С помощью ToolOrchestra мы создали Orchestrator — модель объемом 8 миллиардов параметров, которая достигает более высокой точности при меньшей стоимости по сравнению с предыдущими агентами, использующими инструменты, и при этом соответствует предпочтениям пользователя в выборе инструментов для конкретного запроса. На наборе HLE Orchestrator достигает результата в 37,1%, превосходя GPT-5 (35,1%), будучи при этом в 2,5 раза более эффективным. На наборах tau2-Bench и FRAMES Orchestrator значительно превосходит GPT-5, используя лишь около 30% вычислительных затрат. Обширный анализ показывает, что Orchestrator достигает наилучшего баланса между производительностью и стоимостью по множеству метрик и устойчиво обобщается на незнакомые инструменты. Эти результаты демонстрируют, что компоновка разнообразных инструментов с помощью легковесной модели-оркестратора является как более эффективной, так и более результативной по сравнению с существующими методами, прокладывая путь к практичным и масштабируемым системам рассуждений, усиленным инструментами.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025