L'alignement modèle-tâche détermine des résultats distincts en apprentissage par renforcement.
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
papers.authors: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
papers.abstract
Les récents progrès dans l'application de l'apprentissage par renforcement (RL) aux grands modèles de langage (LLMs) ont conduit à des avancées significatives. En particulier, une série de phénomènes remarquables mais souvent contre-intuitifs ont été rapportés dans les LLMs, présentant des schémas qui ne sont généralement pas observés dans les contextes traditionnels de RL. Par exemple, des affirmations notables incluent qu'un seul exemple d'entraînement peut égaler les performances obtenues avec un ensemble de données complet, que le signal de récompense n'a pas besoin d'être très précis, et que l'entraînement uniquement avec des échantillons négatifs peut égaler ou même surpasser des méthodes sophistiquées basées sur les récompenses. Cependant, les conditions précises sous lesquelles ces observations sont valables - et, surtout, quand elles échouent - restent floues. Dans ce travail, nous identifions un facteur clé qui différencie les observations en RL : si le modèle pré-entraîné présente déjà un fort alignement modèle-tâche, mesuré par la précision pass@k sur la tâche évaluée. À travers un examen systématique et approfondi d'une série d'affirmations contre-intuitives, soutenu par une validation expérimentale rigoureuse sur différentes architectures de modèles et domaines de tâches, nos résultats montrent que bien que l'entraînement standard en RL reste constamment robuste dans divers contextes, beaucoup de ces résultats contre-intuitifs n'apparaissent que lorsque le modèle et la tâche présentent déjà un fort alignement modèle-tâche. En revanche, ces techniques échouent à conduire un apprentissage substantiel dans des régimes plus difficiles, où les méthodes standard de RL restent efficaces.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.