Role-Agent: Inicialización de Agentes de LLM mediante Evolución de Doble Rol

Resumen

Aunque los agentes basados en Modelos de Lenguaje Grande (LLM) han demostrado un rendimiento sólido en tareas complejas, su aprendizaje a menudo se ve limitado por la retroalimentación ineficiente de la interacción y entornos de entrenamiento estáticos, lo que dificulta una generalización más amplia. Para abordar estas limitaciones, este artículo presenta Role-Agent, un marco que aprovecha un único LLM para funcionar simultáneamente como agente y como entorno, permitiendo una coevolución autoiniciada. Role-Agent comprende dos componentes sinérgicos: Mundo-en-Agente (WIA) y Agente-en-Mundo (AIW). En WIA, el LLM actúa como agente y predice estados futuros después de cada acción; la alineación entre los estados predichos y reales se utiliza entonces como recompensa de proceso, fomentando un razonamiento consciente del entorno. En AIW, el LLM analiza los modos de fallo de trayectorias fallidas y recupera tareas con patrones de fallo similares, remodelando así la distribución de los datos de entrenamiento para una práctica dirigida. Los experimentos en múltiples puntos de referencia muestran que Role-Agent mejora consistentemente el rendimiento, obteniendo una ganancia promedio de más del 4% sobre bases de referencia sólidas.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.