MAXS: Meta-adaptive Exploration mit KI-Agenten
MAXS: Meta-Adaptive Exploration with LLM Agents
January 14, 2026
papers.authors: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI
papers.abstract
Große Sprachmodell (LLM)-Agenten zeigen inhärente Fähigkeiten zum logischen Schlussfolgern durch die Zusammenarbeit mehrerer Werkzeuge. Während der Agenten-Inferenz leiden bestehende Methoden jedoch häufig unter (i) lokal kurzsichtigem Generieren aufgrund fehlender Vorausschau und (ii) Trajektorien-Instabilität, bei der geringe frühe Fehler zu divergenten Schlussfolgerungspfaden eskalieren können. Diese Probleme erschweren die Balance zwischen globaler Effektivität und rechnerischer Effizienz. Um diese beiden Probleme zu adressieren, schlagen wir meta-adaptive Exploration mit LLM-Agenten (https://github.com/exoskeletonzj/MAXS) vor, einen meta-adaptiven Reasoning-Rahmen auf Basis von LLM-Agenten, der Werkzeugausführung und Reasoning-Planung flexibel integriert. MAXS verwendet eine Vorausschau-Strategie, um Schlussfolgerungspfade einige Schritte voraus zu erweitern, schätzt den Vorteilswert der Werkzeugnutzung und kombiniert Schrittkonsistenzvarianz und Trendsteigungen zwischen Schritten, um stabile, konsistente und hochwertige Reasoning-Schritte gemeinsam auszuwählen. Zusätzlich führen wir einen Trajektorien-Konvergenzmechanismus ein, der die Rechenkosten kontrolliert, indem weitere Rollouts gestoppt werden, sobald Pfadkonsistenz erreicht ist, und so eine Balance zwischen Ressourceneffizienz und globaler Effektivität beim Multi-Tool-Reasoning ermöglicht. Wir führen umfangreiche empirische Studien mit drei Basismodellen (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) und fünf Datensätzen durch, die zeigen, dass MAXS bestehende Methoden konsistent sowohl in der Leistung als auch in der Inferenzeffizienz übertrifft. Weitere Analysen bestätigen die Wirksamkeit unserer Vorausschau-Strategie und Werkzeugnutzung.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.