PokeRL: Aprendizaje por Refuerzo para Pokémon Rojo

Resumen

Pokémon Rojo es un JRPG de horizonte largo con recompensas dispersas, observabilidad parcial y mecánicas de control peculiares que lo convierten en un punto de referencia desafiante para el aprendizaje por refuerzo. Si bien trabajos recientes han demostrado que agentes PPO pueden superar los dos primeros gimnasios mediante un fuerte moldeado de recompensas y observaciones diseñadas, el entrenamiento sigue siendo frágil en la práctica, con agentes que a menudo degeneran en bucles de acciones, spam de menús o deambulación improductiva. En este artículo, presentamos PokeRL, un sistema modular que entrena agentes de aprendizaje por refuerzo profundo para completar tareas de la fase inicial de Pokémon Rojo, incluyendo salir de la casa del jugador, explorar Pueblo Paleta para llegar a la hierba alta y ganar la primera batalla contra el rival. Nuestras principales contribuciones son un wrapper del entorno consciente de los bucles alrededor del emulador PyBoy con enmascaramiento de mapas, un mecanismo multicapa anti-bucle y anti-spam, y un diseño de recompensa densa y jerárquica. Sostenemos que sistemas prácticos como PokeRL, que modelan explícitamente modos de fallo como bucles y spam, son un paso intermedio necesario entre los puntos de referencia simples y los agentes campeones de la Liga Pokémon completos. El código está disponible en https://github.com/reddheeraj/PokemonRL.

English

Pokemon Red is a long-horizon JRPG with sparse rewards, partial observability, and quirky control mechanics that make it a challenging benchmark for reinforcement learning. While recent work has shown that PPO agents can clear the first two gyms using heavy reward shaping and engineered observations, training remains brittle in practice, with agents often degenerating into action loops, menu spam, or unproductive wandering. In this paper, we present PokeRL, a modular system that trains deep reinforcement learning agents to complete early game tasks in Pokemon Red, including exiting the player's house, exploring Pallet Town to reach tall grass, and winning the first rival battle. Our main contributions are a loop-aware environment wrapper around the PyBoy emulator with map masking, a multi-layer anti-loop and anti-spam mechanism, and a dense hierarchical reward design. We argue that practical systems like PokeRL, which explicitly model failure modes such as loops and spam, are a necessary intermediate step between toy benchmarks and full Pokemon League champion agents. Code is available at https://github.com/reddheeraj/PokemonRL

PokeRL: Aprendizaje por Refuerzo para Pokémon Rojo

PokeRL: Reinforcement Learning for Pokemon Red

Resumen

Support