Role-Agent: бутстреппинг LLM-агентов посредством двухролевой эволюции

Аннотация

Хотя агенты на основе больших языковых моделей (LLM) демонстрируют высокую производительность при решении сложных задач, их обучение часто ограничивается неэффективной обратной связью при взаимодействии и статическими средами обучения, что препятствует широкому обобщению. Для преодоления этих ограничений в данной статье предлагается Role-Agent — фреймворк, который использует единую LLM для одновременного выполнения ролей как агента, так и среды, обеспечивая загрузочную совместную эволюцию. Role-Agent состоит из двух синергетических компонентов: «Мир-в-Агенте» (World-In-Agent, WIA) и «Агент-в-Мире» (Agent-In-World, AIW). В WIA LLM выступает в роли агента и предсказывает будущие состояния после каждого действия; соответствие между предсказанными и фактическими состояниями затем используется как процессное вознаграждение, способствуя рассуждениям с учётом среды. В AIW LLM анализирует сценарии отказов из неудачных траекторий и извлекает задачи с аналогичными паттернами отказов, тем самым изменяя распределение обучающих данных для целенаправленной практики. Эксперименты на нескольких бенчмарках показывают, что Role-Agent стабильно улучшает производительность, достигая среднего прироста более чем на 4% по сравнению с сильными базовыми моделями.

English

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, black{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.