Model-Taak Afstemming Leidt tot Onderscheidende RL Resultaten

Samenvatting

Recente vooruitgang in het toepassen van reinforcement learning (RL) op grote taalmmodellen (LLMs) heeft geleid tot aanzienlijke vooruitgang. In het bijzonder zijn er een reeks opmerkelijke maar vaak contra-intuïtieve fenomenen gerapporteerd in LLMs, die patronen vertonen die niet typisch worden waargenomen in traditionele RL-instellingen. Bijvoorbeeld, opvallende beweringen zijn dat een enkel trainingsvoorbeeld de prestaties kan evenaren die worden bereikt met een volledige dataset, dat het beloningssignaal niet erg nauwkeurig hoeft te zijn, en dat trainen uitsluitend met negatieve voorbeelden de prestaties van geavanceerde beloningsgebaseerde methoden kan evenaren of zelfs overtreffen. De precieze voorwaarden waaronder deze observaties gelden - en, cruciaal, wanneer ze falen - blijven echter onduidelijk. In dit werk identificeren we een sleutelfactor die RL-observaties onderscheidt: of het vooraf getrainde model al een sterke Model-Taak Afstemming vertoont, gemeten aan de hand van pass@k nauwkeurigheid op de geëvalueerde taak. Door een systematisch en uitgebreid onderzoek van een reeks contra-intuïtieve beweringen, ondersteund door rigoureuze experimentele validatie over verschillende modelarchitecturen en taakdomeinen, tonen onze bevindingen aan dat, hoewel standaard RL-training consistent robuust blijft over verschillende instellingen, veel van deze contra-intuïtieve resultaten alleen optreden wanneer het model en de taak al een sterke model-taak afstemming vertonen. Daarentegen falen deze technieken in het stimuleren van substantieel leren in meer uitdagende regimes, waar standaard RL-methoden effectief blijven.

English

Recent advances in applying reinforcement learning (RL) to large language models (LLMs) have led to substantial progress. In particular, a series of remarkable yet often counterintuitive phenomena have been reported in LLMs, exhibiting patterns not typically observed in traditional RL settings. For example, notable claims include that a single training example can match the performance achieved with an entire dataset, that the reward signal does not need to be very accurate, and that training solely with negative samples can match or even surpass sophisticated reward-based methods. However, the precise conditions under which these observations hold - and, critically, when they fail - remain unclear. In this work, we identify a key factor that differentiates RL observations: whether the pretrained model already exhibits strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated task. Through a systematic and comprehensive examination of a series of counterintuitive claims, supported by rigorous experimental validation across different model architectures and task domains, our findings show that while standard RL training remains consistently robust across settings, many of these counterintuitive results arise only when the model and task already exhibit strong model-task alignment. In contrast, these techniques fail to drive substantial learning in more challenging regimes, where standard RL methods remain effective.

Model-Taak Afstemming Leidt tot Onderscheidende RL Resultaten

Model-Task Alignment Drives Distinct RL Outcomes

Samenvatting

Support