MAXS: Exploração Meta-Adaptativa com Agentes de LLM

Resumo

Os Agentes de Modelos de Linguagem de Grande Porte (LLM) exibem capacidades de raciocínio inerentes através da colaboração de múltiplas ferramentas. No entanto, durante a inferência do agente, os métodos existentes frequentemente sofrem com (i) geração localmente míope, devido à ausência de antevisão (lookahead), e (ii) instabilidade da trajetória, onde pequenos erros iniciais podem escalar para caminhos de raciocínio divergentes. Esses problemas dificultam o equilíbrio entre a eficácia global e a eficiência computacional. Para abordar essas duas questões, propomos a Exploração Meta-Adaptativa com Agentes LLM (https://github.com/exoskeletonzj/MAXS), uma estrutura de raciocínio meta-adaptativa baseada em Agentes LLM que integra de forma flexível a execução de ferramentas e o planejamento do raciocínio. O MAXS emprega uma estratégia de antevisão para estender os caminhos de raciocínio alguns passos à frente, estimando o valor de vantagem do uso de ferramentas, e combina a variância da consistência do passo e as tendências de inclinação entre passos para selecionar conjuntamente etapas de raciocínio estáveis, consistentes e de alto valor. Adicionalmente, introduzimos um mecanismo de convergência de trajetória que controla o custo computacional interrompendo a exploração adicional uma vez que a consistência do caminho é alcançada, permitindo um equilíbrio entre a eficiência de recursos e a eficácia global no raciocínio com múltiplas ferramentas. Realizamos estudos empíricos extensos em três modelos base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) e cinco conjuntos de dados, demonstrando que o MAXS supera consistentemente os métodos existentes tanto em desempenho quanto em eficiência de inferência. Análises adicionais confirmam a eficácia da nossa estratégia de antevisão e do uso de ferramentas.

English

Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.

MAXS: Exploração Meta-Adaptativa com Agentes de LLM

MAXS: Meta-Adaptive Exploration with LLM Agents

Resumo

Support