L'allineamento Modello-Compito Guida Risultati RL Distinti
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
Autori: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
Abstract
I recenti progressi nell'applicazione del reinforcement learning (RL) ai grandi modelli linguistici (LLM) hanno portato a significativi avanzamenti. In particolare, è stata riportata una serie di fenomeni notevoli ma spesso controintuitivi negli LLM, che mostrano schemi non tipicamente osservati nei contesti tradizionali di RL. Ad esempio, affermazioni degne di nota includono il fatto che un singolo esempio di addestramento possa eguagliare le prestazioni ottenute con un intero dataset, che il segnale di ricompensa non debba essere molto preciso e che l'addestramento esclusivamente con campioni negativi possa eguagliare o addirittura superare metodi sofisticati basati su ricompense. Tuttavia, le condizioni precise in cui queste osservazioni sono valide - e, in modo critico, quando falliscono - rimangono poco chiare. In questo lavoro, identifichiamo un fattore chiave che differenzia le osservazioni di RL: se il modello pre-addestrato mostra già un forte allineamento modello-compito (Model-Task Alignment), misurato dalla precisione pass@k sul compito valutato. Attraverso un esame sistematico e completo di una serie di affermazioni controintuitive, supportato da una rigorosa validazione sperimentale su diverse architetture di modelli e domini di compiti, i nostri risultati mostrano che, mentre l'addestramento RL standard rimane costantemente robusto in diverse configurazioni, molti di questi risultati controintuitivi emergono solo quando il modello e il compito mostrano già un forte allineamento modello-compito. Al contrario, queste tecniche non riescono a guidare un apprendimento sostanziale in contesti più impegnativi, dove i metodi RL standard rimangono efficaci.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.