ProAct: Агентное предвидение в интерактивных средах
ProAct: Agentic Lookahead in Interactive Environments
February 5, 2026
Авторы: Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
cs.AI
Аннотация
Существующие агенты на основе больших языковых моделей (LLM) демонстрируют низкую эффективность в интерактивных средах, требующих долгосрочного планирования, в основном из-за накопления ошибок при симуляции будущих состояний. Для решения этой проблемы мы предлагаем фреймворк ProAct, который позволяет агентам интериоризировать точное упреждающее рассуждение с помощью двухэтапной парадигмы обучения. Во-первых, мы представляем Grounded LookAhead Distillation (GLAD), при которой агент проходит контролируемое тонкое обучение на траекториях, полученных в результате поиска в среде. Сжимая сложные деревья поиска в сжатые причинно-следственные цепочки рассуждений, агент усваивает логику предвидения без вычислительных затрат на поиск во время вывода. Во-вторых, для дальнейшего повышения точности решений мы предлагаем Monte-Carlo Critic (MC-Critic) — подключаемый вспомогательный оценщик стоимости, предназначенный для улучшения алгоритмов политик градиентов, таких как PPO и GRPO. Используя легковесные прогоны среды для калибровки оценок стоимости, MC-Critic обеспечивает сигнал с низкой дисперсией, способствующий стабильной оптимизации политики без reliance на дорогостоящую аппроксимацию стоимости на основе моделей. Эксперименты как на стохастических (например, 2048), так и на детерминированных (например, Sokoban) средах показывают, что ProAct значительно повышает точность планирования. Примечательно, что модель с 4B параметров, обученная с помощью ProAct, превосходит все открытые базовые модели и конкурирует с передовыми закрытыми моделями, демонстрируя при этом надежную обобщающую способность на незнакомых средах. Код и модели доступны по адресу https://github.com/GreatX3/ProAct.
English
Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct