ChatPaper.aiChatPaper

Обучение агента через ранний опыт

Agent Learning via Early Experience

October 9, 2025
Авторы: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI

Аннотация

Долгосрочной целью языковых агентов является обучение и улучшение через собственный опыт, что в конечном итоге позволит им превзойти людей в сложных, реальных задачах. Однако обучение агентов на основе данных опыта с использованием обучения с подкреплением остается сложным во многих средах, где либо отсутствуют проверяемые награды (например, веб-сайты), либо требуются неэффективные длительные последовательности действий (например, многошаговое использование инструментов). В результате большинство современных агентов полагаются на тонкую настройку с учителем на основе экспертных данных, что сложно масштабировать и что плохо обобщается. Это ограничение связано с природой экспертных демонстраций: они охватывают лишь узкий диапазон сценариев и предоставляют агенту ограниченное разнообразие среды. Мы устраняем это ограничение с помощью промежуточного подхода, который мы называем ранним опытом: данные взаимодействия, генерируемые действиями самого агента, где будущие состояния служат в качестве контроля без сигналов награды. В рамках этого подхода мы изучаем две стратегии использования таких данных: (1) Неявное моделирование мира, которое использует собранные состояния для закрепления политики в динамике среды; и (2) Саморефлексия, где агент учится на своих неоптимальных действиях, чтобы улучшить рассуждения и принятие решений. Мы проводим оценку в восьми различных средах и на множестве семейств моделей. Наши подходы последовательно повышают эффективность и обобщение за пределами домена, подчеркивая ценность раннего опыта. Более того, в средах с проверяемыми наградами наши результаты дают обнадеживающие сигналы о том, что ранний опыт предоставляет прочную основу для последующего обучения с подкреплением, позиционируя его как практический мост между обучением с подражанием и полностью опытными агентами.
English
A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.
PDF1408October 10, 2025