Автоматическая генерация высокопроизводительных сред обучения с подкреплением

Аннотация

Перевод сложных сред обучения с подкреплением (RL) в высокопроизводительные реализации традиционно требовал месяцев специализированной инженерии. Мы представляем переиспользуемый рецепт — универсальный шаблон промпта, иерархическую верификацию и итеративный агент-ассистируемый ремонт, — который позволяет создавать семантически эквивалентные высокопроизводительные среды менее чем за $10 вычислительных затрат. Мы демонстрируем три различных рабочих процесса на примере пяти сред. **Прямой перевод** (когда высокопроизводительная реализация отсутствует): EmuRust (ускорение PPO в 1.5 раза за счет параллелизма на Rust для эмулятора Game Boy) и PokeJAX — первый GPU-параллельный симулятор битв в Pokemon (500 млн шагов в секунду (SPS) для случайных действий, 15.2 млн SPS для PPO; в 22 320 раз быстрее эталонной реализации на TypeScript). **Перевод, верифицированный против существующих высокопроизводительных реализаций**: паритет пропускной способности с MJX (1.04x) и пятикратное превосходство над Brax при сопоставимых размерах GPU-пакетов (HalfCheetah JAX); 42-кратное ускорение PPO (Puffer Pong). **Создание новой среды**: TCGJax — первый развертываемый движок Pokemon TCG на JAX (717 тыс. SPS для случайных действий, 153 тыс. SPS для PPO; в 6.6 раз быстрее эталонной реализации на Python), синтезированный из спецификации, извлеченной из веб-источников. При размере модели в 200 млн параметров накладные расходы среды составляют менее 4% времени обучения. Иерархическая верификация (тесты свойств, взаимодействий и прогонов) подтверждает семантическую эквивалентность для всех пяти сред; передача политик между бэкендами подтверждает нулевой разрыв между симуляторами для всех пяти сред. TCGJax, синтезированный из приватного эталона, отсутствующего в публичных репозиториях, служит контролем заражения данных для предобучения агентов. Статья содержит достаточно деталей — включая репрезентативные промпты, методологию верификации и полные результаты, — чтобы агент программирования мог воспроизвести переводы непосредственно из рукописи.

English

Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.

Автоматическая генерация высокопроизводительных сред обучения с подкреплением

Automatic Generation of High-Performance RL Environments

Аннотация

Support