Generación Automática de Entornos RL de Alto Rendimiento

Resumen

La traducción de entornos complejos de aprendizaje por refuerzo (RL) a implementaciones de alto rendimiento ha requerido tradicionalmente meses de ingeniería especializada. Presentamos una metodología reutilizable - una plantilla de instrucciones genérica, verificación jerárquica y reparación iterativa asistida por agente - que produce entornos semánticamente equivalentes de alto rendimiento por menos de $10 en coste computacional. Demostramos tres flujos de trabajo distintos en cinco entornos. Traducción directa (no existe implementación previa de rendimiento): EmuRust (aceleración de PPO de 1.5x mediante paralelismo en Rust para un emulador de Game Boy) y PokeJAX, el primer simulador de batallas Pokemon paralelizado en GPU (500M SPS acciones aleatorias, 15.2M SPS PPO; 22,320x sobre la referencia en TypeScript). Traducción verificada frente a implementaciones existentes de rendimiento: paridad de throughput con MJX (1.04x) y 5x sobre Brax con tamaños de lote de GPU equivalentes (HalfCheetah JAX); 42x PPO (Puffer Pong). Creación de nuevos entornos: TCGJax, el primer motor JAX desplegable para el Juego de Cartas Coleccionables Pokemon (717K SPS acciones aleatorias, 153K SPS PPO; 6.6x sobre la referencia en Python), sintetizado a partir de una especificación extraída de la web. Con 200 millones de parámetros, la sobrecarga del entorno desciende por debajo del 4% del tiempo de entrenamiento. La verificación jerárquica (pruebas de propiedades, interacción y rollouts) confirma la equivalencia semántica para los cinco entornos; la transferencia de políticas entre backends confirma una brecha sim-to-sim cero para todos los entornos. TCGJax, sintetizado a partir de una referencia privada ausente en repositorios públicos, sirve como control de contaminación para preocupaciones sobre datos de preentrenamiento de agentes. El artículo contiene detalle suficiente - incluyendo instrucciones representativas, metodología de verificación y resultados completos - para que un agente de codificación pudiera reproducir las traducciones directamente desde el manuscrito.

English

Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.

Generación Automática de Entornos RL de Alto Rendimiento

Automatic Generation of High-Performance RL Environments

Resumen

Support