MAXS: Esplorazione Meta-Adattiva con Agenti LLM

Abstract

I modelli linguistici di grandi dimensioni (LLM) come agenti dimostrano capacità di ragionamento intrinseche attraverso la collaborazione di molteplici strumenti. Tuttavia, durante l'inferenza dell'agente, i metodi esistenti spesso soffrono di (i) generazione localmente miope, a causa dell'assenza di un orizzonte temporale esteso (lookahead), e (ii) instabilità della traiettoria, dove piccoli errori iniziali possono degenerare in percorsi di ragionamento divergenti. Questi problemi rendono difficile bilanciare l'efficacia globale e l'efficienza computazionale. Per affrontare queste due problematiche, proponiamo MAXS (meta-adaptive exploration with LLM agents) https://github.com/exoskeletonzj/MAXS, un framework di ragionamento meta-adattivo basato su Agenti LLM che integra flessibilmente l'esecuzione di strumenti e la pianificazione del ragionamento. MAXS impiega una strategia di lookahead per estendere i percorsi di ragionamento di alcuni passi avanti, stimando il valore di vantaggio dell'utilizzo degli strumenti, e combina la varianza della coerenza passo-passo e le pendenze della tendenza inter-passo per selezionare congiuntamente passi di ragionamento stabili, coerenti e di alto valore. Inoltre, introduciamo un meccanismo di convergenza della traiettoria che controlla il costo computazionale interrompendo ulteriori esplorazioni (rollout) una volta raggiunta la coerenza del percorso, consentendo un bilanciamento tra efficienza delle risorse ed efficacia globale nel ragionamento multi-strumento. Abbiamo condotto ampi studi empirici su tre modelli base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) e cinque dataset, dimostrando che MAXS supera costantemente i metodi esistenti sia nelle prestazioni che nell'efficienza di inferenza. Ulteriori analisi confermano l'efficacia della nostra strategia di lookahead e dell'utilizzo degli strumenti.

English

Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.

MAXS: Esplorazione Meta-Adattiva con Agenti LLM

MAXS: Meta-Adaptive Exploration with LLM Agents

Abstract

Support