ProAct: インタラクティブ環境におけるエージェント的先行評価
ProAct: Agentic Lookahead in Interactive Environments
February 5, 2026
著者: Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
cs.AI
要旨
既存の大規模言語モデル(LLM)エージェントは、長期的な計画を要する対話環境において、将来的な状態をシミュレートする際の誤差の累積が主な原因で課題に直面している。この問題に対処するため、我々は2段階の訓練パラダイムを通じてエージェントが正確な先読み推論を内在化するフレームワーク「ProAct」を提案する。第一に、環境ベースの探索から得られた軌跡に対して教師ありファインチューニングを行う「Grounded LookAhead Distillation(GLAD)」を導入する。複雑な探索木を因果関係に基づく簡潔な推論連鎖に圧縮することで、エージェントは推論時の探索という計算コストを伴わずに、先見性の論理を学習する。第二に、意思決定の精度をさらに高めるため、PPOやGRPOなどの方策勾配アルゴリズムを強化するプラグアンドプレイ型の補助的価値推定器「Monte-Carlo Critic(MC-Critic)」を提案する。軽量な環境ロールアウトを活用して価値推定を較正することで、MC-Criticは高価なモデルベースの価値近似に依存せず、安定した方策最適化を促進する低分散の信号を提供する。確率的環境(2048など)と決定論的環境(Sokobanなど)の両方での実験により、ProActが計画の精度を大幅に向上させることが実証された。特に、ProActで訓練された40億パラメータモデルは、すべてのオープンソースベースラインを上回り、最先端のクローズドソースモデルに匹敵する性能を示すとともに、未経験の環境への頑健な一般化能力を発揮した。コードとモデルはhttps://github.com/GreatX3/ProActで公開されている。
English
Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct