Atlas: Orquestração de Modelos e Ferramentas Heterogêneas para Raciocínio Complexo em Múltiplos Domínios

Resumo

A integração de grandes modelos de linguagem (LLMs) com ferramentas externas expandiu significativamente as capacidades de agentes de IA. No entanto, à medida que a diversidade de LLMs e ferramentas aumenta, a seleção da combinação ideal modelo-ferramenta torna-se um desafio de otimização de alta dimensionalidade. As abordagens existentes frequentemente dependem de um único modelo ou de uma lógica fixa de chamada de ferramentas, falhando em explorar as variações de desempenho entre pares heterogêneos modelo-ferramenta. Neste artigo, apresentamos o ATLAS (Alinhamento Adaptativo Ferramenta-LLM e Invocação Sinérgica), uma estrutura de duplo percurso para uso dinâmico de ferramentas em raciocínio complexo cross-domain. O ATLAS opera através de uma abordagem de duplo percurso: (1) roteamento baseado em clusters sem treinamento que explora prévias empíricas para alinhamento domain-specific, e (2) roteamento multi-etapa baseado em RL que explora trajetórias autônomas para generalização out-of-distribution. Experimentos extensos em 15 benchmarks demonstram que nosso método supera modelos de código fechado como o GPT-4o, ultrapassando métodos de roteamento existentes tanto em tarefas in-distribution (+10,1%) quanto out-of-distribution (+13,1%). Além disso, nossa estrutura mostra ganhos significativos em raciocínio visual ao orquestrar ferramentas multimodais especializadas.

English

The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) training-free cluster-based routing that exploits empirical priors for domain-specific alignment, and (2) RL-based multi-step routing that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.