ProAct : Anticipation agentique dans les environnements interactifs

papers.abstract

Les agents basés sur les grands modèles de langage (LLM) existants peinent dans les environnements interactifs nécessitant une planification à long terme, principalement en raison d'erreurs qui s'accumulent lors de la simulation des états futurs. Pour résoudre ce problème, nous proposons ProAct, un cadre qui permet aux agents d'intérioriser un raisonnement prospectif précis grâce à un paradigme d'entraînement en deux étapes. Premièrement, nous introduisons la *Grounded LookAhead Distillation* (GLAD), où l'agent subit un affinage supervisé sur des trajectoires issues d'une recherche basée sur l'environnement. En compressant des arbres de recherche complexes en chaînes de raisonnement causales et concises, l'agent apprend la logique de l'anticipation sans la surcharge computationnelle d'une recherche lors de l'inférence. Deuxièmement, pour affiner davantage la précision décisionnelle, nous proposons le *Monte-Carlo Critic* (MC-Critic), un estimateur de valeur auxiliaire prêt à l'emploi conçu pour améliorer les algorithmes de politique à base de gradients comme PPO et GRPO. En tirant parti de légères simulations de l'environnement pour calibrer les estimations de valeur, le MC-Critic fournit un signal à faible variance qui facilite une optimisation stable des politiques sans dépendre d'une approximation de valeur basée sur un modèle coûteuse. Les expériences sur des environnements stochastiques (par exemple, 2048) et déterministes (par exemple, Sokoban) démontrent que ProAct améliore significativement la précision de la planification. Fait notable, un modèle de 4 milliards de paramètres entraîné avec ProAct surpasse toutes les solutions de référence open-source et rivalise avec les modèles closed-source de pointe, tout en démontrant une généralisation robuste à des environnements non vus. Les codes et modèles sont disponibles à l'adresse https://github.com/GreatX3/ProAct.

English

Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct

ProAct : Anticipation agentique dans les environnements interactifs

ProAct: Agentic Lookahead in Interactive Environments

papers.abstract

Support