ChatPaper.aiChatPaper

탐색을 위한 모든 것은 착취뿐...

Exploitation Is All You Need... for Exploration

August 2, 2025
저자: Micah Rentschler, Jesse Roberts
cs.AI

초록

새로운 환경을 해결하기 위해 메타 강화 학습(meta-RL) 에이전트를 훈련할 때 충분한 탐색을 보장하는 것은 핵심적인 과제입니다. 탐색-활용 딜레마에 대한 기존의 해결책은 탐색을 촉진하기 위해 무작위화, 불확실성 보너스 또는 내재적 보상과 같은 명시적 인센티브를 주입하는 것입니다. 본 연구에서는 탐욕적(활용만을 목표로 하는) 목적만을 최대화하도록 훈련된 에이전트가 세 가지 조건이 충족될 경우 탐색적 행동을 자연스럽게 나타낼 수 있다는 가설을 세웁니다: (1) 반복되는 환경 구조, 즉 환경이 과거 경험이 미래 선택에 영향을 미칠 수 있는 반복 가능한 규칙성을 갖추고 있을 때; (2) 에이전트 메모리, 즉 에이전트가 역사적 상호작용 데이터를 유지하고 활용할 수 있을 때; (3) 장기간 신용 할당, 즉 학습이 탐색의 지연된 이익이 현재 결정에 영향을 미칠 수 있을 만큼 충분한 시간 범위에 걸쳐 반환값을 전파할 때. 확률적 다중 팔 도박 문제와 시간적으로 확장된 그리드월드에서의 실험을 통해, 구조와 메모리가 모두 존재할 때 탐욕적 목적만으로 훈련된 정책이 정보를 찾는 탐색적 행동을 나타냄을 관찰했습니다. 또한, 통제된 제거 실험을 통해 환경 구조나 에이전트 메모리가 없을 경우(조건 1 & 2) 자연스럽게 발생하는 탐색이 사라짐을 입증했습니다. 놀랍게도, 장기간 신용 할당을 제거하더라도(조건 3) 항상 탐색이 사라지는 것은 아니었는데, 이는 유사 톰슨 샘플링 효과로 설명할 수 있습니다. 이러한 결과는 적절한 전제 조건 하에서 탐색과 활용이 서로 직교하는 목표로 취급될 필요 없이 통합된 보상 최대화 과정에서 자연스럽게 발생할 수 있음을 시사합니다.
English
Ensuring sufficient exploration is a central challenge when training meta-reinforcement learning (meta-RL) agents to solve novel environments. Conventional solutions to the exploration-exploitation dilemma inject explicit incentives such as randomization, uncertainty bonuses, or intrinsic rewards to encourage exploration. In this work, we hypothesize that an agent trained solely to maximize a greedy (exploitation-only) objective can nonetheless exhibit emergent exploratory behavior, provided three conditions are met: (1) Recurring Environmental Structure, where the environment features repeatable regularities that allow past experience to inform future choices; (2) Agent Memory, enabling the agent to retain and utilize historical interaction data; and (3) Long-Horizon Credit Assignment, where learning propagates returns over a time frame sufficient for the delayed benefits of exploration to inform current decisions. Through experiments in stochastic multi-armed bandits and temporally extended gridworlds, we observe that, when both structure and memory are present, a policy trained on a strictly greedy objective exhibits information-seeking exploratory behavior. We further demonstrate, through controlled ablations, that emergent exploration vanishes if either environmental structure or agent memory is absent (Conditions 1 & 2). Surprisingly, removing long-horizon credit assignment (Condition 3) does not always prevent emergent exploration-a result we attribute to the pseudo-Thompson Sampling effect. These findings suggest that, under the right prerequisites, exploration and exploitation need not be treated as orthogonal objectives but can emerge from a unified reward-maximization process.
PDF52August 5, 2025