ToolOrchestra: Elevando a Inteligência por meio de Orquestração Eficiente de Modelos e Ferramentas

Resumo

Os grandes modelos de linguagem são generalistas poderosos, mas resolver problemas profundos e complexos como os do Exame Final da Humanidade (HLE) permanece um desafio conceptual e computacionalmente dispendioso. Demonstramos que pequenos orquestradores que gerem outros modelos e uma variedade de ferramentas podem tanto elevar o limite superior da inteligência como melhorar a eficiência na resolução de tarefas agentivas difíceis. Apresentamos o ToolOrchestra, um método para treinar pequenos orquestradores que coordenam ferramentas inteligentes. O ToolOrchestra utiliza explicitamente aprendizagem por reforço com recompensas conscientes do resultado, da eficiência e das preferências do utilizador. Usando o ToolOrchestra, produzimos o Orchestrator, um modelo de 8B que alcança maior precisão a um custo inferior do que os agentes anteriores de uso de ferramentas, alinhando-se simultaneamente com as preferências do utilizador sobre quais ferramentas devem ser usadas para uma determinada consulta. No HLE, o Orchestrator alcança uma pontuação de 37,1%, superando o GPT-5 (35,1%) enquanto é 2,5 vezes mais eficiente. No tau2-Bench e no FRAMES, o Orchestrator supera o GPT-5 por uma ampla margem, utilizando apenas cerca de 30% do custo. Uma análise extensiva mostra que o Orchestrator alcança o melhor compromisso entre desempenho e custo em múltiplas métricas e generaliza robustamente para ferramentas não vistas. Estes resultados demonstram que compor diversas ferramentas com um modelo de orquestração leve é simultaneamente mais eficiente e mais eficaz do que os métodos existentes, abrindo caminho para sistemas práticos e escaláveis de raciocínio aumentado por ferramentas.

English

Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrchestra explicitly uses reinforcement learning with outcome-, efficiency-, and user-preference-aware rewards. Using ToolOrchestra, we produce Orchestrator, an 8B model that achieves higher accuracy at lower cost than previous tool-use agents while aligning with user preferences on which tools are to be used for a given query. On HLE, Orchestrator achieves a score of 37.1%, outperforming GPT-5 (35.1%) while being 2.5x more efficient. On tau2-Bench and FRAMES, Orchestrator surpasses GPT-5 by a wide margin while using only about 30% of the cost. Extensive analysis shows that Orchestrator achieves the best trade-off between performance and cost under multiple metrics, and generalizes robustly to unseen tools. These results demonstrate that composing diverse tools with a lightweight orchestration model is both more efficient and more effective than existing methods, paving the way for practical and scalable tool-augmented reasoning systems.

ToolOrchestra: Elevando a Inteligência por meio de Orquestração Eficiente de Modelos e Ferramentas

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Resumo

Support