MAXS: Meta-adaptieve exploratie met LLM-agents
MAXS: Meta-Adaptive Exploration with LLM Agents
January 14, 2026
Auteurs: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI
Samenvatting
Grote Taalmodellen (LLM) Agents vertonen inherente redeneervermogens door de samenwerking van meerdere tools. Bestaande methoden kampen tijdens agent-inferentie echter vaak met (i) lokaal myopische generatie, vanwege het ontbreken van vooruitkijken (lookahead), en (ii) trajectonstabiliteit, waarbij kleine vroege fouten kunnen escaleren tot uiteenlopende redeneerpaden. Deze problemen maken het moeilijk om globale effectiviteit en computationele efficiëntie in evenwicht te brengen. Om deze twee problemen aan te pakken, stellen we meta-adaptieve exploratie met LLM-agents voor (https://github.com/exoskeletonzj/MAXS), een meta-adaptief redeneerraamwerk gebaseerd op LLM-agents dat tooluitvoering en redeneerplanning flexibel integreert. MAXS past een lookahead-strategie toe om redeneerpaden enkele stappen vooruit uit te breiden, schat de voordelige waarde (advantage value) van toolgebruik in, en combineert stapconsistentievariantie en trendhellingen tussen stappen om gezamenlijk stabiele, consistente en hoogwaardige redeneerstappen te selecteren. Daarnaast introduceren we een trajectconvergentiemechanisme dat de computationele kosten beheerst door verdere rollouts te stoppen zodra padconsistentie is bereikt, waardoor een balans mogelijk wordt tussen resource-efficiëntie en globale effectiviteit in multi-tool redenering. We voeren uitgebreide empirische studies uit over drie basismodellen (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) en vijf datasets, waaruit blijkt dat MAXS consequent beter presteert dan bestaande methoden, zowel qua prestaties als inferentie-efficiëntie. Verdere analyse bevestigt de effectiviteit van onze lookahead-strategie en toolgebruik.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.