MAXS : Exploration Méta-Adaptative avec des Agents LLM
MAXS: Meta-Adaptive Exploration with LLM Agents
January 14, 2026
papers.authors: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM) manifestent des capacités de raisonnement intrinsèques grâce à la collaboration de multiples outils. Cependant, lors de l'inférence des agents, les méthodes existantes souffrent souvent (i) d'une génération localement myope, due à l'absence d'anticipation, et (ii) d'une instabilité des trajectoires, où de légères erreurs initiales peuvent s'amplifier en chemins de raisonnement divergents. Ces problèmes rendent difficile l'équilibre entre l'efficacité globale et l'efficacité computationnelle. Pour résoudre ces deux problèmes, nous proposons MAXS (meta-adaptive exploration with LLM agents) https://github.com/exoskeletonzj/MAXS, un cadre de raisonnement méta-adaptatif basé sur les agents LLM qui intègre de manière flexible l'exécution d'outils et la planification du raisonnement. MAXS utilise une stratégie d'anticipation pour étendre les chemins de raisonnement de quelques pas en avant, en estimant la valeur d'avantage de l'utilisation des outils, et combine la variance de cohérence étape par étape et les pentes de tendance inter-étapes pour sélectionner conjointement des étapes de raisonnement stables, cohérentes et à haute valeur. De plus, nous introduisons un mécanisme de convergence de trajectoire qui contrôle le coût computationnel en arrêtant les déploiements ultérieurs une fois la cohérence du chemin atteinte, permettant un équilibre entre l'efficacité des ressources et l'efficacité globale dans le raisonnement multi-outils. Nous menons des études empiriques approfondies sur trois modèles de base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) et cinq jeux de données, démontrant que MAXS surpasse constamment les méthodes existantes tant en performances qu'en efficacité d'inférence. Une analyse plus poussée confirme l'efficacité de notre stratégie d'anticipation et de l'utilisation des outils.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.