ChatPaper.aiChatPaper

MAXS: Exploración Meta-Adaptativa con Agentes de LLM

MAXS: Meta-Adaptive Exploration with LLM Agents

January 14, 2026
Autores: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI

Resumen

Los Agentes de Modelos de Lenguaje Grandes (LLM) exhiben capacidades de razonamiento inherentes mediante la colaboración de múltiples herramientas. Sin embargo, durante la inferencia del agente, los métodos existentes a menudo adolecen de (i) generación localmente miope, debido a la ausencia de anticipación, y (ii) inestabilidad de la trayectoria, donde pequeños errores iniciales pueden escalar en caminos de razonamiento divergentes. Estos problemas dificultan el equilibrio entre la efectividad global y la eficiencia computacional. Para abordar estas dos cuestiones, proponemos la exploración meta-adaptativa con agentes LLM (MAXS), un marco de razonamiento meta-adaptativo basado en Agentes LLM que integra flexiblemente la ejecución de herramientas y la planificación del razonamiento. MAXS emplea una estrategia de anticipación para extender los caminos de razonamiento varios pasos hacia adelante, estimando el valor de ventaja del uso de herramientas, y combina la varianza de consistencia paso a paso y las pendientes de tendencia entre pasos para seleccionar conjuntamente pasos de razonamiento estables, consistentes y de alto valor. Adicionalmente, introducimos un mecanismo de convergencia de trayectorias que controla el coste computacional deteniendo nuevas iteraciones una vez que se logra la consistencia de la ruta, permitiendo un equilibrio entre la eficiencia de recursos y la efectividad global en el razonamiento con múltiples herramientas. Realizamos estudios empíricos exhaustivos en tres modelos base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) y cinco conjuntos de datos, demostrando que MAXS supera consistentemente a los métodos existentes tanto en rendimiento como en eficiencia de inferencia. Un análisis adicional confirma la efectividad de nuestra estrategia de anticipación y el uso de herramientas.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.
PDF813January 16, 2026