ChatPaper.aiChatPaper

MAXS: Мета-адаптивное исследование с помощью агентов на основе больших языковых моделей

MAXS: Meta-Adaptive Exploration with LLM Agents

January 14, 2026
Авторы: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu
cs.AI

Аннотация

Крупные языковые модели (LLM) как агенты демонстрируют врожденные способности к логическому выводу через совместное использование множества инструментов. Однако в процессе логического вывода агента существующие методы часто сталкиваются с (i) локально близорукой генерацией, обусловленной отсутствием прогнозирования на несколько шагов вперед (lookahead), и (ii) нестабильностью траектории рассуждений, когда незначительные ранние ошибки могут усиливаться и приводить к расходящимся путям рассуждений. Эти проблемы затрудняют балансировку между глобальной эффективностью и вычислительной производительностью. Для решения этих двух проблем мы предлагаем мета-адаптивное исследование с агентами на основе LLM (https://github.com/exoskeletonzj/MAXS) — мета-адаптивную framework логического вывода, которая гибко интегрирует выполнение инструментов и планирование рассуждений. MAXS использует стратегию прогнозирования на несколько шагов вперед для расширения путей рассуждений, оценивая преимущество (advantage value) использования инструментов, и комбинирует дисперсию пошаговой согласованности (step consistency variance) и наклоны межшаговых трендов для совместного выбора стабильных, согласованных и высокоценных шагов рассуждений. Кроме того, мы вводим механизм сходимости траекторий, который контролирует вычислительные затраты путем остановки дальнейших разверток (rollouts) после достижения согласованности пути, что позволяет достичь баланса между эффективностью использования ресурсов и глобальной результативностью в рассуждениях с множеством инструментов. Мы провели обширные эмпирические исследования на трех базовых моделях (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) и пяти наборах данных, которые демонстрируют, что MAXS стабильно превосходит существующие методы как по производительности, так и по эффективности логического вывода. Дополнительный анализ подтверждает эффективность нашей стратегии прогнозирования и использования инструментов.
English
Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.
PDF813January 16, 2026