Génération Automatique d'Environnements RL Hautes Performances

Résumé

La traduction d'environnements complexes d'apprentissage par renforcement (RL) en implémentations haute performance nécessitait traditionnellement des mois d'ingénierie spécialisée. Nous présentons une méthode réutilisable – un modèle d'invite générique, une vérification hiérarchique et une réparation itérative assistée par agent – qui produit des environnements sémantiquement équivalents et haute performance pour moins de 10 $ en coût de calcul. Nous démontrons trois workflows distincts sur cinq environnements. Traduction directe (aucune implémentation performante préexistante) : EmuRust (accélération PPO de 1,5x via le parallélisme Rust pour un émulateur Game Boy) et PokeJAX, le premier simulateur de combat Pokémon parallélisé sur GPU (500M SPS action aléatoire, 15,2M SPS PPO ; 22 320x par rapport à la référence TypeScript). Traduction vérifiée contre des implémentations performantes existantes : débit équivalent à MJX (1,04x) et 5x supérieur à Brax pour des lots GPU de taille identique (HalfCheetah JAX) ; PPO 42x plus rapide (Puffer Pong). Création de nouveaux environnements : TCGJax, le premier moteur JAX déployable pour le jeu de cartes Pokémon (717K SPS action aléatoire, 153K SPS PPO ; 6,6x par rapport à la référence Python), synthétisé à partir d'une spécification extraite du web. À 200 millions de paramètres, la surcharge de l'environnement descend en dessous de 4 % du temps d'entraînement. La vérification hiérarchique (tests de propriété, d'interaction et de déploiement) confirme l'équivalence sémantique pour les cinq environnements ; le transfert de politiques entre backends confirme un écart sim-to-sim nul pour les cinq environnements. TCGJax, synthétisé à partir d'une référence privée absente des dépôts publics, sert de contrôle de contamination pour les problèmes de données de pré-entraînement des agents. L'article contient suffisamment de détails – incluant des invites représentatives, la méthodologie de vérification et les résultats complets – pour qu'un agent de codage puisse reproduire les traductions directement à partir du manuscrit.

English

Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.

Génération Automatique d'Environnements RL Hautes Performances

Automatic Generation of High-Performance RL Environments

Résumé

Support