ChatPaper.aiChatPaper

ProAct: Mirada Prospectiva Agente en Entornos Interactivos

ProAct: Agentic Lookahead in Interactive Environments

February 5, 2026
Autores: Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
cs.AI

Resumen

Los agentes basados en modelos de lenguaje grandes (LLM) existentes presentan dificultades en entornos interactivos que requieren planificación a largo plazo, principalmente debido a la acumulación de errores al simular estados futuros. Para abordar este problema, proponemos ProAct, un marco que permite a los agentes internalizar un razonamiento prospectivo preciso mediante un paradigma de entrenamiento en dos etapas. Primero, introducimos la Destilación de Planificación Prospectiva Fundamentada (GLAD), donde el agente se somete a un ajuste fino supervisado en trayectorias derivadas de búsquedas basadas en el entorno. Al comprimir árboles de búsqueda complejos en cadenas de razonamiento causales y concisas, el agente aprende la lógica de la previsión sin la sobrecarga computacional de la búsqueda en tiempo de inferencia. En segundo lugar, para refinar aún más la precisión decisional, proponemos el Crítico de Monte Carlo (MC-Critic), un estimador de valor auxiliar plug-and-play diseñado para mejorar algoritmos de política de gradientes como PPO y GRPO. Al aprovechar simulaciones ligeras del entorno para calibrar las estimaciones de valor, MC-Critic proporciona una señal de baja varianza que facilita una optimización de políticas estable sin depender de una costosa aproximación de valor basada en modelos. Los experimentos en entornos tanto estocásticos (por ejemplo, 2048) como deterministas (por ejemplo, Sokoban) demuestran que ProAct mejora significativamente la precisión de la planificación. Notablemente, un modelo de 4B de parámetros entrenado con ProAct supera a todos los baselines de código abierto y rivaliza con los modelos cerrados state-of-the-art, al mismo tiempo que demuestra una generalización robusta a entornos no vistos. Los códigos y modelos están disponibles en https://github.com/GreatX3/ProAct.
English
Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct
PDF192February 7, 2026