ChatPaper.aiChatPaper

L'allineamento Modello-Compito Guida Risultati RL Distinti

Model-Task Alignment Drives Distinct RL Outcomes

August 28, 2025
Autori: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI

Abstract

I recenti progressi nell'applicazione del reinforcement learning (RL) ai grandi modelli linguistici (LLM) hanno portato a significativi avanzamenti. In particolare, è stata riportata una serie di fenomeni notevoli ma spesso controintuitivi negli LLM, che mostrano schemi non tipicamente osservati nei contesti tradizionali di RL. Ad esempio, affermazioni degne di nota includono il fatto che un singolo esempio di addestramento possa eguagliare le prestazioni ottenute con un intero dataset, che il segnale di ricompensa non debba essere molto preciso e che l'addestramento esclusivamente con campioni negativi possa eguagliare o addirittura superare metodi sofisticati basati su ricompense. Tuttavia, le condizioni precise in cui queste osservazioni sono valide - e, in modo critico, quando falliscono - rimangono poco chiare. In questo lavoro, identifichiamo un fattore chiave che differenzia le osservazioni di RL: se il modello pre-addestrato mostra già un forte allineamento modello-compito (Model-Task Alignment), misurato dalla precisione pass@k sul compito valutato. Attraverso un esame sistematico e completo di una serie di affermazioni controintuitive, supportato da una rigorosa validazione sperimentale su diverse architetture di modelli e domini di compiti, i nostri risultati mostrano che, mentre l'addestramento RL standard rimane costantemente robusto in diverse configurazioni, molti di questi risultati controintuitivi emergono solo quando il modello e il compito mostrano già un forte allineamento modello-compito. Al contrario, queste tecniche non riescono a guidare un apprendimento sostanziale in contesti più impegnativi, dove i metodi RL standard rimangono efficaci.
English
Recent advances in applying reinforcement learning (RL) to large language models (LLMs) have led to substantial progress. In particular, a series of remarkable yet often counterintuitive phenomena have been reported in LLMs, exhibiting patterns not typically observed in traditional RL settings. For example, notable claims include that a single training example can match the performance achieved with an entire dataset, that the reward signal does not need to be very accurate, and that training solely with negative samples can match or even surpass sophisticated reward-based methods. However, the precise conditions under which these observations hold - and, critically, when they fail - remain unclear. In this work, we identify a key factor that differentiates RL observations: whether the pretrained model already exhibits strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated task. Through a systematic and comprehensive examination of a series of counterintuitive claims, supported by rigorous experimental validation across different model architectures and task domains, our findings show that while standard RL training remains consistently robust across settings, many of these counterintuitive results arise only when the model and task already exhibit strong model-task alignment. In contrast, these techniques fail to drive substantial learning in more challenging regimes, where standard RL methods remain effective.
PDF82September 1, 2025