ChatPaper.aiChatPaper

ToolOrchestra: Elevando la Inteligencia mediante una Orquestación Eficiente de Modelos y Herramientas

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

November 26, 2025
Autores: Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Resumen

Los modelos de lenguaje a gran escala son generalistas potentes, pero resolver problemas profundos y complejos como los del Examen Final de la Humanidad (HLE) sigue siendo conceptualmente desafiante y computacionalmente costoso. Demostramos que pequeños orquestadores que gestionan otros modelos y una variedad de herramientas pueden elevar el límite superior de la inteligencia y mejorar la eficiencia en la resolución de tareas agenticas difíciles. Presentamos ToolOrchestra, un método para entrenar pequeños orquestadores que coordinan herramientas inteligentes. ToolOrchestra utiliza explícitamente aprendizaje por refuerzo con recompensas conscientes de los resultados, la eficiencia y las preferencias del usuario. Usando ToolOrchestra, producimos Orchestrator, un modelo de 8B que logra mayor precisión a menor costo que los agentes previos de uso de herramientas, alineándose con las preferencias del usuario sobre qué herramientas utilizar para una consulta dada. En HLE, Orchestrator alcanza un puntaje del 37.1%, superando a GPT-5 (35.1%) mientras es 2.5 veces más eficiente. En tau2-Bench y FRAMES, Orchestrator supera a GPT-5 por un amplio margen utilizando solo alrededor del 30% del costo. Un análisis exhaustivo muestra que Orchestrator logra el mejor equilibrio entre rendimiento y costo bajo múltiples métricas, y generaliza robustamente a herramientas no vistas. Estos resultados demuestran que componer diversas herramientas con un modelo de orquestación ligero es más eficiente y efectivo que los métodos existentes, allanando el camino para sistemas de razonamiento aumentados con herramientas prácticos y escalables.
English
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.
PDF551December 4, 2025