Aprendizagem por Reforço Complementar

Resumo

O Aprendizado por Reforço (RL) emergiu como um paradigma poderoso para treinar agentes baseados em LLM, mas permanece limitado pela baixa eficiência amostral, decorrente não apenas do feedback esparso de resultados, mas também da incapacidade do agente de aproveitar experiências prévias entre episódios. Embora o aumento de agentes com experiência histórica ofereça um remédio promissor, as abordagens existentes sofrem de uma fraqueza crítica: a experiência destilada da história é armazenada estaticamente ou não consegue coevoluir com o ator em melhoria, causando um desalinhamento progressivo entre a experiência e a capacidade evolutiva do ator que diminui sua utilidade ao longo do treinamento. Inspirados pelos sistemas de aprendizagem complementares na neurociência, apresentamos o RL Complementar para alcançar uma coevolução harmoniosa de um extrator de experiência e um ator de política dentro do loop de otimização de RL. Especificamente, o ator é otimizado por meio de recompensas esparsas baseadas em resultados, enquanto o extrator de experiência é otimizado de acordo com se suas experiências destiladas contribuem demonstrativamente para o sucesso do ator, evoluindo assim sua estratégia de gestão de experiência em sincronia com as capacidades crescentes do ator. Empiricamente, o RL Complementar supera as linhas de base de RL agentico baseadas em resultados que não aprendem com a experiência, alcançando uma melhoria de desempenho de 10% em cenários de tarefa única e exibindo escalabilidade robusta em configurações multitarefa. Esses resultados estabelecem o RL Complementar como um paradigma para o aprendizado eficiente de agentes orientado pela experiência.

English

Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.

Aprendizagem por Reforço Complementar

Complementary Reinforcement Learning

Resumo

Support