Generazione Automatica di Ambienti RL ad Alte Prestazioni
Automatic Generation of High-Performance RL Environments
March 12, 2026
Autori: Seth Karten, Rahul Dev Appapogu, Chi Jin
cs.AI
Abstract
La traduzione di ambienti complessi di apprendimento per rinforzo (RL) in implementazioni ad alte prestazioni ha tradizionalmente richiesto mesi di ingegneria specializzata. Presentiamo una procedura riutilizzabile - un prompt template generico, verifica gerarchica e riparazione iterativa assistita da agenti - che produce ambienti semanticamente equivalenti e ad alte prestazioni con un costo computazionale inferiore a $10. Dimostriamo tre flussi di lavoro distinti su cinque ambienti. Traduzione diretta (nessuna implementazione performante preesistente): EmuRust (accelerazione PPO di 1,5x grazie al parallelismo in Rust per un emulatore Game Boy) e PokeJAX, il primo simulatore di battaglie Pokemon parallelo su GPU (500M SPS azione casuale, 15,2M SPS PPO; 22.320x rispetto al riferimento TypeScript). Traduzione verificata rispetto a implementazioni performanti esistenti: parità di throughput con MJX (1,04x) e 5x superiore a Brax con dimensioni di batch GPU equivalenti (HalfCheetah JAX); PPO 42x (Puffer Pong). Creazione di nuovi ambienti: TCGJax, il primo motore JAX distribuibile per il Pokemon TCG (717K SPS azione casuale, 153K SPS PPO; 6,6x rispetto al riferimento Python), sintetizzato da una specifica estratta dal web. Con 200 milioni di parametri, l'overhead dell'ambiente scende al di sotto del 4% del tempo di addestramento. La verifica gerarchica (test di proprietà, interazione e rollout) conferma l'equivalenza semantica per tutti e cinque gli ambienti; il trasferimento di politiche tra backend conferma un divario sim-to-sim nullo per tutti e cinque gli ambienti. TCGJax, sintetizzato da un riferimento privato assente dai repository pubblici, funge da controllo di contaminazione per le preoccupazioni relative ai dati di pre-addestramento degli agenti. Il documento contiene dettagli sufficienti - inclusi prompt rappresentativi, metodologia di verifica e risultati completi - affinché un agente di codifica possa riprodurre le traduzioni direttamente dal manoscritto.
English
Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.