Atlas: Orchestrierung heterogener Modelle und Werkzeuge für komplexe Multi-Domain-Beweisführung
Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning
January 7, 2026
papers.authors: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI
papers.abstract
Die Integration großer Sprachmodelle (LLMs) mit externen Werkzeugen hat die Fähigkeiten von KI-Agenten erheblich erweitert. Mit zunehmender Diversität sowohl der LLMs als auch der Werkzeuge wird die Auswahl der optimalen Modell-Werkzeug-Kombination jedoch zu einem hochdimensionalen Optimierungsproblem. Bestehende Ansätze verlassen sich oft auf ein einzelnes Modell oder eine feste Werkzeugaufruflogik und nutzen die Leistungsunterschiede zwischen heterogenen Modell-Werkzeug-Paaren nicht aus. In diesem Artikel stellen wir ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation) vor, ein Dual-Path-Framework für die dynamische Werkzeugnutzung beim domänenübergreifenden komplexen Denken. ATLAS operiert über einen Zwei-Pfade-Ansatz: (1) trainierungsfreie, clusterbasierte Routenwahl, die empirische A-priori-Informationen für domänenspezifische Ausrichtung nutzt, und (2) RL-basierte Mehrschritt-Routenwahl, die autonome Trajektorien zur Generalisierung außerhalb der Trainingsverteilung erkundet. Umfangreiche Experimente über 15 Benchmarks zeigen, dass unsere Methode Closed-Source-Modelle wie GPT-4o übertrifft und bestehende Routing-Methoden sowohl bei Aufgaben innerhalb der Trainingsverteilung (+10,1 %) als auch außerhalb (+13,1 %) überlegen ist. Darüber hinaus erzielt unser Framework signifikante Gewinne im visuellen Denken durch die Orchestrierung spezialisierter multimodaler Werkzeuge.
English
The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) training-free cluster-based routing that exploits empirical priors for domain-specific alignment, and (2) RL-based multi-step routing that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.