ChatPaper.aiChatPaper

MAXS: LLM 에이전트 기반 메타 적응형 탐색

MAXS: Meta-Adaptive Exploration with LLM Agents

January 14, 2026
저자: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 여러 도구의 협업을 통해 내재된 추론 능력을 보여줍니다. 그러나 에이전트 추론 과정에서 기존 방법들은 (i) 선견지명의 부재로 인한 국소적 근시안적 생성 및 (ii) 초기의 사소한 오류가 발산하는 추론 경로로 확대될 수 있는 궤적 불안정성 문제를 자주 겪습니다. 이러한 문제들은 전역적 효과성과 계산 효율성의 균형을 잡기 어렵게 만듭니다. 이 두 가지 문제를 해결하기 위해 우리는 LLM 에이전트 기반의 메타 적응형 추론 프레임워크인 MAXS(메타 적응형 탐색)를 제안합니다. MAXS는 도구 실행과 추론 계획을 유연하게 통합하며, 선견지명 전략을 사용하여 추론 경로를 몇 단계 앞서 확장하고 도구 사용의 장점 값을 추정합니다. 또한 단계 일관성 분산과 단계 간 경사도를 결합하여 안정적이고 일관성 있으며 고가치의 추론 단계를 공동으로 선택합니다. 더불어, 경로 일관성이 달성되면 추가 롤아웃을 중단하여 계산 비용을 통제하는 궤적 수렴 메커니즘을 도입하여 다중 도구 추론에서 자원 효율성과 전역적 효과성 간의 균형을 가능하게 합니다. 우리는 세 가지 기본 모델과 다섯 가지 데이터셋을 대상으로 광범위한 실증 연구를 수행하여 MAXS가 성능과 추론 효율성 모두에서 기존 방법들을 지속적으로 능가함을 입증했습니다. 추가 분석을 통해 우리의 선견지명 전략과 도구 사용의 효과성을 확인하였습니다.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.
PDF813January 16, 2026