Model-Taak Afstemming Leidt tot Onderscheidende RL Resultaten
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
Auteurs: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
Samenvatting
Recente vooruitgang in het toepassen van reinforcement learning (RL) op grote taalmmodellen (LLMs) heeft geleid tot aanzienlijke vooruitgang. In het bijzonder zijn er een reeks opmerkelijke maar vaak contra-intuïtieve fenomenen gerapporteerd in LLMs, die patronen vertonen die niet typisch worden waargenomen in traditionele RL-instellingen. Bijvoorbeeld, opvallende beweringen zijn dat een enkel trainingsvoorbeeld de prestaties kan evenaren die worden bereikt met een volledige dataset, dat het beloningssignaal niet erg nauwkeurig hoeft te zijn, en dat trainen uitsluitend met negatieve voorbeelden de prestaties van geavanceerde beloningsgebaseerde methoden kan evenaren of zelfs overtreffen. De precieze voorwaarden waaronder deze observaties gelden - en, cruciaal, wanneer ze falen - blijven echter onduidelijk. In dit werk identificeren we een sleutelfactor die RL-observaties onderscheidt: of het vooraf getrainde model al een sterke Model-Taak Afstemming vertoont, gemeten aan de hand van pass@k nauwkeurigheid op de geëvalueerde taak. Door een systematisch en uitgebreid onderzoek van een reeks contra-intuïtieve beweringen, ondersteund door rigoureuze experimentele validatie over verschillende modelarchitecturen en taakdomeinen, tonen onze bevindingen aan dat, hoewel standaard RL-training consistent robuust blijft over verschillende instellingen, veel van deze contra-intuïtieve resultaten alleen optreden wanneer het model en de taak al een sterke model-taak afstemming vertonen. Daarentegen falen deze technieken in het stimuleren van substantieel leren in meer uitdagende regimes, waar standaard RL-methoden effectief blijven.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.