Trajectory Balance met Asynchronie: Ontkoppeling van Exploratie en Leren voor Snelle, Schaalbare Post-Training van LLM's

Samenvatting

Versterkend leren (Reinforcement Learning, RL) is een cruciaal onderdeel van de na-training van grote taalmodellen (Large Language Models, LLM). De bestaande on-policy algoritmen die voor na-training worden gebruikt, zijn echter inherent onverenigbaar met het gebruik van experience replay buffers, die op schaalbare wijze kunnen worden gevuld door gedistribueerde off-policy actoren om de exploratie te verbeteren naarmate de rekenkracht toeneemt. Wij stellen voor om dit voordeel van replay buffers efficiënt te benutten via Trajectory Balance with Asynchrony (TBA), een enorm schaalbaar RL-systeem voor LLM. In tegenstelling tot bestaande benaderingen gebruikt TBA een groter deel van de rekenkracht voor zoekacties, waarbij voortdurend off-policy data wordt gegenereerd voor een centrale replay buffer. Een trainingsnode bemonstert tegelijkertijd data uit deze buffer op basis van beloning of recentheid om het beleid bij te werken met behulp van Trajectory Balance (TB), een op diversiteit gericht RL-doel dat is geïntroduceerd voor GFlowNets. TBA biedt drie belangrijke voordelen: (1) ontkoppelde training en zoekacties, waardoor de trainingsduur met 4x of meer wordt verkort; (2) verbeterde diversiteit door grootschalige off-policy bemonstering; en (3) schaalbare zoekacties voor omgevingen met schaarse beloningen. Op het gebied van wiskundig redeneren, voorkeursafstemming en geautomatiseerde red-teaming (diverse en representatieve na-trainings taken), levert TBA snelheids- en prestatieverbeteringen op ten opzichte van sterke basislijnen.

English

Reinforcement learning (RL) is a critical component of large language model (LLM) post-training. However, existing on-policy algorithms used for post-training are inherently incompatible with the use of experience replay buffers, which can be populated scalably by distributed off-policy actors to enhance exploration as compute increases. We propose efficiently obtaining this benefit of replay buffers via Trajectory Balance with Asynchrony (TBA), a massively scalable LLM RL system. In contrast to existing approaches, TBA uses a larger fraction of compute on search, constantly generating off-policy data for a central replay buffer. A training node simultaneously samples data from this buffer based on reward or recency to update the policy using Trajectory Balance (TB), a diversity-seeking RL objective introduced for GFlowNets. TBA offers three key advantages: (1) decoupled training and search, speeding up training wall-clock time by 4x or more; (2) improved diversity through large-scale off-policy sampling; and (3) scalable search for sparse reward settings. On mathematical reasoning, preference-tuning, and automated red-teaming (diverse and representative post-training tasks), TBA produces speed and performance improvements over strong baselines.

Trajectory Balance met Asynchronie: Ontkoppeling van Exploratie en Leren voor Snelle, Schaalbare Post-Training van LLM's

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Samenvatting

Support