ChatPaper.aiChatPaper

ProAct: 대화형 환경에서의 능동적 전망 탐색

ProAct: Agentic Lookahead in Interactive Environments

February 5, 2026
저자: Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
cs.AI

초록

기존 대규모 언어 모델(LLM) 에이전트는 장기적인 계획이 필요한 상호작용 환경에서 주로 미래 상태 시뮬레이션 시 발생하는 오류 누적으로 인해 어려움을 겪습니다. 이를 해결하기 위해 우리는 2단계 학습 패러다임을 통해 에이전트가 정확한 선행 추론을 내재화할 수 있는 프레임워크인 ProAct를 제안합니다. 첫째, 환경 기반 탐색에서 도출된 궤적에 대해 에이전트가 지도 미세 조정을 수행하는 접지된 선행 추론 증류(Grounded LookAhead Distillation, GLAD)를 도입합니다. 복잡한 탐색 트리를 간결한 인과적 추론 체인으로 압축함으로써, 에이전트는 추론 시점의 탐색에 따른 계산 부담 없이 선견지명의 논리를 학습합니다. 둘째, 의사 결정 정확도를 더욱 개선하기 위해 PPO 및 GRPO와 같은 정책 경사 알고리즘을 강화하도록 설계된 플러그 앤 플레이 보조 가치 추정기인 몬테카를로 비평가(Monte-Carlo Critic, MC-Critic)를 제안합니다. 경량 환경 롤아웃을 활용하여 가치 추정값을 보정함으로써, MC-Critic은 고비용의 모델 기반 가치 근사에 의존하지 않으면서 안정적인 정책 최적화를 용이하게 하는 낮은 분산의 신호를 제공합니다. 확률적 환경(예: 2048)과 결정론적 환경(예: 소코반) 모두에서의 실험을 통해 ProAct가 계획 정확도를 크게 향상시킴을 입증했습니다. 주목할 점은, ProAct로 학습된 40억 매개변수 모델이 모든 오픈소스 기준 모델을 능가하고 최첨단 클로즈드소스 모델에 필적하는 성능을 보이면서, 보지 못한 환경에 대한 강력한 일반화 능력을 보여주었습니다. 코드와 모델은 https://github.com/GreatX3/ProAct에서 확인할 수 있습니다.
English
Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct
PDF192February 7, 2026