ChatPaper.aiChatPaper

MAXS: LLMエージェントによるメタ適応型探索

MAXS: Meta-Adaptive Exploration with LLM Agents

January 14, 2026
著者: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI

要旨

大規模言語モデル(LLM)エージェントは、複数のツール間の連携を通じて本質的な推論能力を発揮する。しかし、既存の手法ではエージェント推論時に、(i)先読みの欠如による局所的な近視眼的な生成と、(ii)初期の微小な誤差が発散する推論経路へと増幅する軌道不安定性が頻繁に生じる。これらの課題は、大域的な有効性と計算効率のバランスを困難にする。これら2つの課題に対処するため、我々はメタ適応型探索フレームワーク「MAXS」(https://github.com/exoskeletonzj/MAXS)を提案する。これはLLMエージェントに基づくメタ適応型推論フレームワークであり、ツール実行と推論計画を柔軟に統合する。MAXSは先読み戦略を採用し、数ステップ先までの推論経路を拡張してツール使用のアドバンテージ値を推定するとともに、ステップ間の一貫性分散とトレンド勾配を組み合わせることで、安定性・一貫性・高価値性を備えた推論ステップを共同で選択する。さらに、経路一貫性が達成された段階で追加のロールアウトを停止する軌道収束機構を導入し、計算コストを制御する。これにより、複数ツール推論におけるリソース効率と大域的有効性のバランスを実現する。3つのベースモデル(MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B)と5つのデータセットを用いた広範な実証研究により、MAXSが性能と推論効率の両面で既存手法を一貫して上回ることを示す。さらなる分析により、我々の先読み戦略とツール使用の有効性が確認された。
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.
PDF813January 16, 2026