Agentenlernen durch frühe Erfahrung
Agent Learning via Early Experience
October 9, 2025
papers.authors: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
papers.abstract
Ein langfristiges Ziel von Sprachagenten ist es, durch eigene Erfahrungen zu lernen und sich zu verbessern, um letztendlich Menschen in komplexen, realen Aufgaben zu übertreffen. Die Ausbildung von Agenten mithilfe von Erfahrungsdaten und Verstärkungslernen bleibt jedoch in vielen Umgebungen schwierig, da entweder überprüfbare Belohnungen fehlen (z.B. auf Websites) oder ineffiziente Langzeitrollouts erforderlich sind (z.B. bei mehrstufiger Werkzeugnutzung). Infolgedessen verlassen sich die meisten aktuellen Agenten auf überwachtes Feintuning mit Experten-Daten, das schwer skalierbar ist und schlecht generalisiert. Diese Einschränkung ergibt sich aus der Natur von Experten-Demonstrationen: Sie erfassen nur ein enges Spektrum von Szenarien und bieten dem Agenten begrenzte Umgebungsvielfalt. Wir adressieren diese Einschränkung mit einem Zwischenparadigma, das wir als frühe Erfahrung bezeichnen: Interaktionsdaten, die durch die eigenen Aktionen des Agenten generiert werden, wobei die resultierenden zukünftigen Zustände als Supervision ohne Belohnungssignale dienen. Innerhalb dieses Paradigmas untersuchen wir zwei Strategien zur Nutzung solcher Daten: (1) Implizite Weltmodellierung, die gesammelte Zustände nutzt, um die Politik in den Umgebungsdynamiken zu verankern; und (2) Selbstreflexion, bei der der Agent aus seinen suboptimalen Aktionen lernt, um das Denken und Entscheiden zu verbessern. Wir evaluieren unsere Ansätze in acht verschiedenen Umgebungen und mit mehreren Modellfamilien. Unsere Ansätze verbessern konsequent die Effektivität und die Generalisierung außerhalb der Trainingsdomäne und unterstreichen den Wert früher Erfahrungen. Darüber hinaus liefern unsere Ergebnisse in Umgebungen mit überprüfbaren Belohnungen vielversprechende Hinweise darauf, dass frühe Erfahrungen eine solide Grundlage für nachfolgendes Verstärkungslernen bieten und sie als praktische Brücke zwischen Imitationslernen und vollständig erfahrungsgetriebenen Agenten positionieren.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.