Aprendizaje del Agente mediante Experiencia Temprana
Agent Learning via Early Experience
October 9, 2025
Autores: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
Resumen
Un objetivo a largo plazo de los agentes de lenguaje es aprender y mejorar a través de su propia experiencia, superando eventualmente a los humanos en tareas complejas del mundo real. Sin embargo, entrenar agentes a partir de datos de experiencia con aprendizaje por refuerzo sigue siendo difícil en muchos entornos, ya sea porque carecen de recompensas verificables (por ejemplo, sitios web) o porque requieren despliegues ineficientes a largo plazo (por ejemplo, el uso de herramientas en múltiples turnos). Como resultado, la mayoría de los agentes actuales dependen del ajuste fino supervisado con datos de expertos, lo cual es difícil de escalar y generaliza de manera deficiente. Esta limitación surge de la naturaleza de las demostraciones de expertos: capturan solo un rango estrecho de escenarios y exponen al agente a una diversidad limitada del entorno. Abordamos esta limitación con un paradigma intermedio que llamamos experiencia temprana: datos de interacción generados por las propias acciones del agente, donde los estados futuros resultantes sirven como supervisión sin señales de recompensa. Dentro de este paradigma, estudiamos dos estrategias para utilizar dichos datos: (1) Modelado implícito del mundo, que utiliza los estados recopilados para fundamentar la política en la dinámica del entorno; y (2) Autorreflexión, donde el agente aprende de sus acciones subóptimas para mejorar el razonamiento y la toma de decisiones. Evaluamos en ocho entornos diversos y múltiples familias de modelos. Nuestros enfoques mejoran consistentemente la efectividad y la generalización fuera del dominio, destacando el valor de la experiencia temprana. Además, en entornos con recompensas verificables, nuestros resultados proporcionan señales prometedoras de que la experiencia temprana ofrece una base sólida para el aprendizaje por refuerzo posterior, posicionándola como un puente práctico entre el aprendizaje por imitación y los agentes completamente impulsados por la experiencia.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.