Role-Agent: Inicializando Agentes LLM via Evolução de Papéis Duais

Resumo

Embora agentes baseados em Modelos de Linguagem de Grande Porte (LLMs) tenham demonstrado desempenho robusto em tarefas complexas, seu aprendizado é frequentemente limitado por feedback interativo ineficiente e ambientes de treinamento estáticos, o que dificulta uma generalização mais ampla. Para superar essas limitações, este artigo apresenta o Role-Agent, uma estrutura que utiliza um único LLM para atuar simultaneamente como agente e ambiente, possibilitando uma coevolução autossustentada (bootstrap). O Role-Agent é composto por dois componentes sinérgicos: Mundo-no-Agente (World-In-Agent, WIA) e Agente-no-Mundo (Agent-In-World, AIW). No WIA, o LLM atua como agente e prediz estados futuros após cada ação; a concordância entre estados previstos e reais é então usada como uma recompensa de processo, incentivando um raciocínio consciente do ambiente. No AIW, o LLM analisa modos de falha a partir de trajetórias malsucedidas e recupera tarefas com padrões de falha semelhantes, remodelando assim a distribuição dos dados de treinamento para uma prática direcionada. Experimentos em diversos benchmarks mostram que o Role-Agent melhora consistentemente o desempenho, com um ganho médio superior a 4% em relação a linhas de base robustas.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.