Role-Agent : Amorçage d'agents LLM via une évolution à double rôle

Résumé

Bien que les agents basés sur les grands modèles de langage (LLM) aient démontré des performances solides sur des tâches complexes, leur apprentissage est souvent limité par des retours d'interaction inefficaces et des environnements d'entraînement statiques, ce qui entrave une généralisation plus large. Pour remédier à ces limitations, cet article introduit Role-Agent, un cadre qui exploite un unique LLM pour fonctionner simultanément comme l'agent et l'environnement, permettant une co-évolution amorcée. Role-Agent comprend deux composants synergiques : Monde-dans-l'Agent (WIA) et Agent-dans-le-Monde (AIW). Dans WIA, le LLM agit en tant qu'agent et prédit les états futurs après chaque action ; l'alignement entre les états prédits et réels est ensuite utilisé comme récompense de processus, encourageant un raisonnement conscient de l'environnement. Dans AIW, le LLM analyse les modes d'échec issus des trajectoires échouées et récupère des tâches présentant des schémas d'échec similaires, remodelant ainsi la distribution des données d'entraînement pour une pratique ciblée. Les expériences réalisées sur plusieurs benchmarks montrent que Role-Agent améliore constamment les performances, produisant un gain moyen de plus de 4 % par rapport aux lignes de base fortes.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.