ChatPaper.aiChatPaper

Exploração É Tudo o Que Você Precisa... para a Investigação

Exploitation Is All You Need... for Exploration

August 2, 2025
Autores: Micah Rentschler, Jesse Roberts
cs.AI

Resumo

Garantir uma exploração suficiente é um desafio central ao treinar agentes de meta-aprendizado por reforço (meta-RL) para resolver novos ambientes. Soluções convencionais para o dilema exploração-exploração injetam incentivos explícitos, como randomização, bônus de incerteza ou recompensas intrínsecas, para encorajar a exploração. Neste trabalho, hipotetizamos que um agente treinado exclusivamente para maximizar um objetivo ganancioso (apenas exploração) pode, ainda assim, exibir comportamento exploratório emergente, desde que três condições sejam atendidas: (1) Estrutura Ambiental Recorrente, onde o ambiente apresenta regularidades repetíveis que permitem que experiências passadas informem escolhas futuras; (2) Memória do Agente, permitindo que o agente retenha e utilize dados históricos de interação; e (3) Atribuição de Crédito de Longo Prazo, onde o aprendizado propaga retornos em um período de tempo suficiente para que os benefícios atrasados da exploração informem decisões atuais. Por meio de experimentos em bandidos multi-armados estocásticos e mundos de grade temporalmente estendidos, observamos que, quando tanto a estrutura quanto a memória estão presentes, uma política treinada com um objetivo estritamente ganancioso exibe comportamento exploratório de busca por informação. Além disso, demonstramos, por meio de ablações controladas, que a exploração emergente desaparece se a estrutura ambiental ou a memória do agente estiver ausente (Condições 1 e 2). Surpreendentemente, a remoção da atribuição de crédito de longo prazo (Condição 3) nem sempre impede a exploração emergente - um resultado que atribuímos ao efeito pseudo-Thompson Sampling. Esses achados sugerem que, sob os pré-requisitos corretos, exploração e exploração não precisam ser tratadas como objetivos ortogonais, mas podem emergir de um processo unificado de maximização de recompensa.
English
Ensuring sufficient exploration is a central challenge when training meta-reinforcement learning (meta-RL) agents to solve novel environments. Conventional solutions to the exploration-exploitation dilemma inject explicit incentives such as randomization, uncertainty bonuses, or intrinsic rewards to encourage exploration. In this work, we hypothesize that an agent trained solely to maximize a greedy (exploitation-only) objective can nonetheless exhibit emergent exploratory behavior, provided three conditions are met: (1) Recurring Environmental Structure, where the environment features repeatable regularities that allow past experience to inform future choices; (2) Agent Memory, enabling the agent to retain and utilize historical interaction data; and (3) Long-Horizon Credit Assignment, where learning propagates returns over a time frame sufficient for the delayed benefits of exploration to inform current decisions. Through experiments in stochastic multi-armed bandits and temporally extended gridworlds, we observe that, when both structure and memory are present, a policy trained on a strictly greedy objective exhibits information-seeking exploratory behavior. We further demonstrate, through controlled ablations, that emergent exploration vanishes if either environmental structure or agent memory is absent (Conditions 1 & 2). Surprisingly, removing long-horizon credit assignment (Condition 3) does not always prevent emergent exploration-a result we attribute to the pseudo-Thompson Sampling effect. These findings suggest that, under the right prerequisites, exploration and exploitation need not be treated as orthogonal objectives but can emerge from a unified reward-maximization process.
PDF62August 5, 2025