ProAct: Agentisches Vorausplanen in interaktiven Umgebungen

papers.abstract

Bestehende Agenten auf Basis großer Sprachmodelle (LLM) haben Schwierigkeiten in interaktiven Umgebungen, die langfristige Planung erfordern, hauptsächlich aufgrund von sich aufschaukelnden Fehlern bei der Simulation zukünftiger Zustände. Um dieses Problem zu lösen, schlagen wir ProAct vor, ein Framework, das Agenten ermöglicht, durch ein zweistufiges Trainingsparadigma genaue Vorausschau-Argumentation zu internalisieren. Zunächst führen wir Grounded LookAhead Distillation (GLAD) ein, bei der der Agent einem supervidierten Fein-Tuning anhand von Trajektorien unterzogen wird, die aus einer umgebungsbasierten Suche abgeleitet sind. Durch die Komprimierung komplexer Suchbäume in prägnante, kausale Argumentationsketten lernt der Agent die Logik der Vorausschau ohne den rechenintensiven Overhead einer Suchroutine zur Inferenzzeit. Zweitens schlagen wir, um die Entscheidungsgenauigkeit weiter zu verfeinern, den Monte-Carlo-Critic (MC-Critic) vor, einen plug-and-play-fähigen zusätzlichen Wertschätzer, der entwickelt wurde, um Policy-Gradienten-Algorithmen wie PPO und GRPO zu verbessern. Durch den Einsatz leichtgewichtiger Umgebungs-Rollouts zur Kalibrierung von Wertschätzungen liefert MC-Critic ein Signal mit geringer Varianz, das eine stabile Policy-Optimierung erleichtert, ohne auf rechenintensive modellbasierte Wertapproximation angewiesen zu sein. Experimente in sowohl stochastischen (z.B. 2048) als auch deterministischen (z.B. Sokoban) Umgebungen zeigen, dass ProAct die Planungsgenauigkeit signifikant verbessert. Bemerkenswerterweise übertrifft ein mit ProAct trainierter Modell mit 4B Parametern alle Open-Source-Baselines und kann sich mit state-of-the-art Closed-Source-Modellen messen, wobei es eine robuste Generalisierung auf ungesehene Umgebungen demonstriert. Die Codes und Modelle sind unter https://github.com/GreatX3/ProAct verfügbar.

English

Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct

ProAct: Agentisches Vorausplanen in interaktiven Umgebungen

ProAct: Agentic Lookahead in Interactive Environments

papers.abstract

Support