Atlas: Orchestrazione di Modelli e Strumenti Eterogenei per il Ragionamento Complesso in Multipli Domini

Abstract

L'integrazione di grandi modelli linguistici (LLM) con strumenti esterni ha ampliato significativamente le capacità degli agenti di intelligenza artificiale. Tuttavia, con l'aumentare della diversità sia dei LLM che degli strumenti, la selezione della combinazione ottimale modello-strumento diventa una sfida di ottimizzazione ad alta dimensionalità. Gli approcci esistenti si basano spesso su un singolo modello o su una logica fissa di chiamata degli strumenti, non riuscendo a sfruttare le variazioni prestazionali tra coppie eterogenee modello-strumento. In questo articolo, presentiamo ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), un framework a doppio percorso per l'utilizzo dinamico degli strumenti nel ragionamento complesso cross-dominio. ATLAS opera attraverso un approccio a doppio percorso: (1) instradamento basato su clustering senza addestramento che sfrutta prior empirici per l'allineamento dominio-specifico, e (2) instradamento multi-step basato su RL che esplora traiettorie autonome per la generalizzazione out-of-distribution. Esperimenti estesi su 15 benchmark dimostrano che il nostro metodo supera modelli closed-source come GPT-4o, superando i metodi di routing esistenti sia in compiti in-distribution (+10,1%) che out-of-distribution (+13,1%). Inoltre, il nostro framework mostra significativi miglioramenti nel ragionamento visivo orchestrando strumenti multi-modali specializzati.

English

The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) training-free cluster-based routing that exploits empirical priors for domain-specific alignment, and (2) RL-based multi-step routing that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.

Atlas: Orchestrazione di Modelli e Strumenti Eterogenei per il Ragionamento Complesso in Multipli Domini

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Abstract

Support