ChatPaper.aiChatPaper

Атлас: Оркестрация гетерогенных моделей и инструментов для многодоменного сложного рассуждения

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

January 7, 2026
Авторы: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao
cs.AI

Аннотация

Интеграция больших языковых моделей (LLM) с внешними инструментами значительно расширила возможности ИИ-агентов. Однако по мере роста разнообразия как самих LLM, так и инструментов, выбор оптимальной комбинации модель-инструмент становится задачей высокоразмерной оптимизации. Существующие подходы часто полагаются на единую модель или фиксированную логику вызова инструментов, не учитывая вариативность производительности в гетерогенных парах модель-инструмент. В данной статье мы представляем ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation) — двухконтурную архитектуру для динамического использования инструментов в кросс-доменных рассуждениях. ATLAS функционирует по двум направлениям: (1) беспоисковое кластерное маршрутизирование, использующее эмпирические априорные данные для доменно-специфичного согласования, и (2) многошаговая маршрутизация на основе обучения с подкреплением, исследующая автономные траектории для обобщения вне распределения. Экстенсивные эксперименты на 15 бенчмарках демонстрируют превосходство нашего метода над закрытыми моделями типа GPT-4o, с превышением показателей существующих методов маршрутизации как для задач в распределении (+10.1%), так и вне распределения (+13.1%). Кроме того, наша архитектура показывает значительный прогресс в визуальных рассуждениях за счет оркестрации специализированных мультимодальных инструментов.
English
The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) training-free cluster-based routing that exploits empirical priors for domain-specific alignment, and (2) RL-based multi-step routing that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.
PDF301January 9, 2026