Atlas: 이기종 모델과 도구를 활용한 다중 도메인 복합 추론 오케스트레이션
Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning
January 7, 2026
저자: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI
초록
대규모 언어 모델(LLM)과 외부 도구의 통합은 AI 에이전트의 능력을 크게 확장시켰습니다. 그러나 LLM과 도구의 다양성이 증가함에 따라 최적의 모델-도구 조합을 선택하는 것은 고차원 최적화 문제가 되었습니다. 기존 접근법은 단일 모델이나 고정된 도구 호출 로직에 의존하는 경우가 많아 이질적인 모델-도구 조합 간 성능 변동을 충분히 활용하지 못합니다. 본 논문에서는 교차 영역 복합 추론에서 동적 도구 사용을 위한 이중 경로 프레임워크인 ATLAS(Adaptive Tool-LLM Alignment and Synergistic Invocation)를 제시합니다. ATLAS는 두 가지 경로로 운영됩니다: (1) 영역 특화 정렬을 위한 경험적 사전 지식을 활용하는 학습 불필요 클러스터 기반 라우팅, (2) 분포 외 일반화를 위한 자율적 궤적 탐색이 가능한 강화 학습 기반 다단계 라우팅. 15개 벤치마크에 걸친 광범위한 실험을 통해 본 방법이 GPT-4o와 같은 폐쇄형 모델을 능가하며, 기존 라우팅 방법 대비 분포 내 작업(+10.1%)과 분포 외 작업(+13.1%) 모두에서 우수한 성능을 보임을 입증했습니다. 더 나아가 본 프레임워크는 전문적인 다중 모달 도구들을 조정하여 시각 추론 영역에서도 상당한 성능 향상을 나타냈습니다.
English
The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) training-free cluster-based routing that exploits empirical priors for domain-specific alignment, and (2) RL-based multi-step routing that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.