Geração Automática de Ambientes de RL de Alto Desempenho
Automatic Generation of High-Performance RL Environments
March 12, 2026
Autores: Seth Karten, Rahul Dev Appapogu, Chi Jin
cs.AI
Resumo
A tradução de ambientes complexos de aprendizagem por reforço (RL) para implementações de alto desempenho tradicionalmente exigia meses de engenharia especializada. Apresentamos uma receita reutilizável - um *template* de *prompt* genérico, verificação hierárquica e reparo iterativo assistido por agente - que produz ambientes semanticamente equivalentes e de alto desempenho por menos de US$ 10 em custo computacional. Demonstramos três fluxos de trabalho distintos em cinco ambientes. Tradução direta (quando não existe uma implementação de desempenho prévia): EmuRust (aceleração de 1,5x no PPO via paralelismo em Rust para um emulador de Game Boy) e PokeJAX, o primeiro simulador de batalhas Pokemon com paralelização em GPU (500M SPS para ações aleatórias, 15,2M SPS para PPO; 22.320x em relação à referência em TypeScript). Tradução verificada contra implementações de desempenho existentes: paridade de taxa de transferência com MJX (1,04x) e 5x sobre o Brax em tamanhos de *batch* de GPU equivalentes (HalfCheetah JAX); PPO 42x mais rápido (Puffer Pong). Criação de novo ambiente: TCGJax, o primeiro motor JAX implantável para o Pokemon TCG (717K SPS para ações aleatórias, 153K SPS para PPO; 6,6x sobre a referência em Python), sintetizado a partir de uma especificação extraída da web. Com 200 milhões de parâmetros, a sobrecarga do ambiente cai para menos de 4% do tempo de treinamento. A verificação hierárquica (testes de propriedade, interação e *rollout*) confirma a equivalência semântica para todos os cinco ambientes; a transferência de políticas entre *backends* confirma uma lacuna *sim-to-sim* zero para todos os cinco ambientes. O TCGJax, sintetizado a partir de uma referência privada ausente de repositórios públicos, serve como um controle de contaminação para preocupações com dados de pré-treinamento de agentes. O artigo contém detalhes suficientes - incluindo *prompts* representativos, metodologia de verificação e resultados completos - para que um agente de codificação possa reproduzir as traduções diretamente a partir do manuscrito.
English
Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.