Aprendizaje del Agente mediante Experiencia Temprana

Resumen

Un objetivo a largo plazo de los agentes de lenguaje es aprender y mejorar a través de su propia experiencia, superando eventualmente a los humanos en tareas complejas del mundo real. Sin embargo, entrenar agentes a partir de datos de experiencia con aprendizaje por refuerzo sigue siendo difícil en muchos entornos, ya sea porque carecen de recompensas verificables (por ejemplo, sitios web) o porque requieren despliegues ineficientes a largo plazo (por ejemplo, el uso de herramientas en múltiples turnos). Como resultado, la mayoría de los agentes actuales dependen del ajuste fino supervisado con datos de expertos, lo cual es difícil de escalar y generaliza de manera deficiente. Esta limitación surge de la naturaleza de las demostraciones de expertos: capturan solo un rango estrecho de escenarios y exponen al agente a una diversidad limitada del entorno. Abordamos esta limitación con un paradigma intermedio que llamamos experiencia temprana: datos de interacción generados por las propias acciones del agente, donde los estados futuros resultantes sirven como supervisión sin señales de recompensa. Dentro de este paradigma, estudiamos dos estrategias para utilizar dichos datos: (1) Modelado implícito del mundo, que utiliza los estados recopilados para fundamentar la política en la dinámica del entorno; y (2) Autorreflexión, donde el agente aprende de sus acciones subóptimas para mejorar el razonamiento y la toma de decisiones. Evaluamos en ocho entornos diversos y múltiples familias de modelos. Nuestros enfoques mejoran consistentemente la efectividad y la generalización fuera del dominio, destacando el valor de la experiencia temprana. Además, en entornos con recompensas verificables, nuestros resultados proporcionan señales prometedoras de que la experiencia temprana ofrece una base sólida para el aprendizaje por refuerzo posterior, posicionándola como un puente práctico entre el aprendizaje por imitación y los agentes completamente impulsados por la experiencia.

English

A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.

Aprendizaje del Agente mediante Experiencia Temprana

Agent Learning via Early Experience

Resumen

Support