Aprendizado de Agentes por meio de Experiência Inicial
Agent Learning via Early Experience
October 9, 2025
Autores: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
Resumo
Um objetivo de longo prazo dos agentes de linguagem é aprender e melhorar por meio de sua própria experiência, superando os humanos em tarefas complexas do mundo real. No entanto, treinar agentes a partir de dados de experiência com aprendizado por reforço continua sendo difícil em muitos ambientes, que ou carecem de recompensas verificáveis (por exemplo, websites) ou exigem execuções de longo prazo ineficientes (por exemplo, uso de ferramentas em múltiplas etapas). Como resultado, a maioria dos agentes atuais depende de ajuste fino supervisionado em dados de especialistas, o que é desafiador para escalar e generaliza mal. Essa limitação decorre da natureza das demonstrações de especialistas: elas capturam apenas um conjunto restrito de cenários e expõem o agente a uma diversidade limitada de ambientes. Nós abordamos essa limitação com um paradigma intermediário que chamamos de experiência inicial: dados de interação gerados pelas próprias ações do agente, onde os estados futuros resultantes servem como supervisão sem sinais de recompensa. Dentro desse paradigma, estudamos duas estratégias de uso desses dados: (1) Modelagem implícita do mundo, que usa estados coletados para fundamentar a política na dinâmica do ambiente; e (2) Autorreflexão, onde o agente aprende com suas ações subótimas para melhorar o raciocínio e a tomada de decisões. Avaliamos em oito ambientes diversos e múltiplas famílias de modelos. Nossas abordagens melhoram consistentemente a eficácia e a generalização fora do domínio, destacando o valor da experiência inicial. Além disso, em ambientes com recompensas verificáveis, nossos resultados fornecem sinais promissores de que a experiência inicial oferece uma base sólida para o subsequente aprendizado por reforço, posicionando-a como uma ponte prática entre o aprendizado por imitação e agentes totalmente orientados por experiência.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.