Role-Agent: Het bootstrappen van LLM-agenten via dubbele rol-evolutie

Samenvatting

Hoewel agenten van grote taalmodellen (Large Language Models, LLM) sterke prestaties hebben laten zien bij complexe taken, wordt hun leren vaak beperkt door inefficiënte interactie-feedback en statische trainingsomgevingen, wat bredere generalisatie belemmert. Om deze beperkingen aan te pakken, introduceert dit artikel Role-Agent, een raamwerk dat een enkel LLM inzet om gelijktijdig te fungeren als zowel agent als omgeving, waardoor een bootstrapped co-evolutie mogelijk wordt. Role-Agent bestaat uit twee synergistische componenten: World-In-Agent (WIA) en Agent-In-World (AIW). In WIA fungeert het LLM als de agent en voorspelt het toekomstige toestanden na elke actie; de overeenstemming tussen voorspelde en werkelijke toestanden wordt vervolgens gebruikt als een procesbeloning, wat omgevingsbewuste redenering stimuleert. In AIW analyseert het LLM faalmodi uit mislukte trajecten en haalt het taken op met vergelijkbare faalpatronen, waardoor de trainingsgegevensverdeling wordt hervormd voor gerichte oefening. Experimenten op meerdere benchmarks tonen aan dat Role-Agent consistent de prestaties verbetert, met een gemiddelde winst van meer dan 4% ten opzichte van sterke basislijnen.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.