ProAct: Antecipação Ativa em Ambientes Interativos

Resumo

Os agentes baseados em Grandes Modelos de Linguagem (LLMs) existentes têm dificuldades em ambientes interativos que exigem planejamento de longo horizonte, principalmente devido à acumulação de erros ao simular estados futuros. Para resolver isso, propomos o ProAct, uma estrutura que permite aos agentes internalizar um raciocínio prospectivo preciso através de um paradigma de treinamento em dois estágios. Primeiro, introduzimos a Distilação Prospectiva Fundamentada (GLAD), na qual o agente passa por um ajuste fino supervisionado em trajetórias derivadas de uma busca baseada no ambiente. Ao comprimir árvores de busca complexas em cadeias de raciocínio causais e concisas, o agente aprende a lógica da previsão sem a sobrecarga computacional da busca durante a inferência. Segundo, para refinar ainda mais a precisão da decisão, propomos o Crítico de Monte Carlo (MC-Critic), um estimador de valor auxiliar "plug-and-play" projetado para aprimorar algoritmos de política de gradiente, como PPO e GRPO. Ao aproveitar rollouts leves do ambiente para calibrar as estimativas de valor, o MC-Critic fornece um sinal de baixa variância que facilita uma otimização de política estável, sem depender de uma aproximação de valor baseada em modelo computacionalmente custosa. Experimentos em ambientes estocásticos (por exemplo, 2048) e determinísticos (por exemplo, Sokoban) demonstram que o ProAct melhora significativamente a precisão do planejamento. Notavelmente, um modelo com 4B de parâmetros treinado com o ProAct supera todas as linhas de base de código aberto e rivaliza com os modelos state-of-the-art de código fechado, demonstrando ao mesmo tempo uma generalização robusta para ambientes não vistos. Os códigos e modelos estão disponíveis em https://github.com/GreatX3/ProAct.

English

Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct

ProAct: Antecipação Ativa em Ambientes Interativos

ProAct: Agentic Lookahead in Interactive Environments

Resumo

Support