Role-Agent: Bootstrapping von LLM-Agenten durch Dual-Rollen-Evolution

Zusammenfassung

Obwohl Agenten, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, bei komplexen Aufgaben eine starke Leistung gezeigt haben, wird ihr Lernen oft durch ineffizientes Interaktionsfeedback und statische Trainingsumgebungen eingeschränkt, was eine breitere Generalisierung behindert. Um diese Einschränkungen zu adressieren, führt dieses Paper Role-Agent ein, ein Framework, das ein einzelnes LLM nutzt, um gleichzeitig sowohl als Agent als auch als Umgebung zu fungieren, wodurch eine bootstrapierte Koevolution ermöglicht wird. Role-Agent besteht aus zwei synergetischen Komponenten: World-In-Agent (WIA) und Agent-In-World (AIW). In WIA agiert das LLM als Agent und prognostiziert nach jeder Aktion zukünftige Zustände; die Übereinstimmung zwischen prognostizierten und tatsächlichen Zuständen wird dann als Prozessbelohnung verwendet, was umgebungsbewusstes Denken fördert. In AIW analysiert das LLM Fehlermodi aus fehlgeschlagenen Trajektorien und ruft Aufgaben mit ähnlichen Fehlermustern ab, wodurch die Trainingsdatenverteilung für gezieltes Üben umgeformt wird. Experimente mit mehreren Benchmarks zeigen, dass Role-Agent die Leistung konsistent verbessert, mit einem durchschnittlichen Zugewinn von über 4% gegenüber starken Basislinien.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.