ChatPaper.aiChatPaper

Automatische Erzeugung hochperformanter RL-Umgebungen

Automatic Generation of High-Performance RL Environments

March 12, 2026
Autoren: Seth Karten, Rahul Dev Appapogu, Chi Jin
cs.AI

Zusammenfassung

Die Übersetzung komplexer Reinforcement-Learning (RL)-Umgebungen in hochperformante Implementierungen erforderte traditionell monatelange spezialisierte Entwicklungsarbeit. Wir stellen eine wiederverwendbare Methode vor – eine generische Prompt-Vorlage, hierarchische Verifikation und iteratives agentengestütztes Reparieren – die semantisch äquivalente Hochleistungsumgebungen für unter 10 US-Dollar Rechenkosten erzeugt. Wir demonstrieren drei verschiedene Workflows anhand von fünf Umgebungen. Direkte Übersetzung (keine existierende Performance-Implementierung): EmuRust (1,5-fache PPO-Beschleunigung durch Rust-Parallelisierung für einen Game-Boy-Emulator) und PokeJAX, der erste GPU-parallele Pokemon-Kampfsimulator (500M SPS Zufallsaktionen, 15,2M SPS PPO; 22.320-fache Leistung des TypeScript-Referenzsystems). Übersetzung verifiziert gegen existierende Performance-Implementierungen: Durchsatzparität mit MJX (1,04-fach) und 5-fache Leistung gegenüber Brax bei gleichen GPU-Batch-Größen (HalfCheetah JAX); 42-fache PPO-Leistung (Puffer Pong). Neue Umgebungserstellung: TCGJax, die erste einsatzfähige JAX-Pokemon-TCG-Engine (717K SPS Zufallsaktionen, 153K SPS PPO; 6,6-fache Leistung der Python-Referenz), synthetisiert aus einer webbasierten Spezifikation. Bei 200M Parametern sinkt der Umgebungs-Overhead unter 4% der Trainingszeit. Hierarchische Verifikation (Eigenschafts-, Interaktions- und Rollout-Tests) bestätigt die semantische Äquivalenz für alle fünf Umgebungen; Policy-Transfer zwischen Backends bestätigt eine Null Sim-to-Sim-Lücke für alle fünf Umgebungen. TCGJax, synthetisiert aus einer privaten Referenz, die nicht in öffentlichen Repositories vorhanden ist, dient als Kontrolle für Kontaminationsbedenken bei Agenten-Pretraining-Daten. Die Arbeit enthält ausreichend Detail – einschließlich repräsentativer Prompts, Verifikationsmethodik und vollständiger Ergebnisse – damit ein Coding-Agent die Übersetzungen direkt aus dem Manuskript reproduzieren könnte.
English
Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.
PDF42March 15, 2026