ChatPaper.aiChatPaper

Modell-Aufgaben-Ausrichtung bestimmt unterschiedliche RL-Ergebnisse

Model-Task Alignment Drives Distinct RL Outcomes

August 28, 2025
papers.authors: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI

papers.abstract

Jüngste Fortschritte bei der Anwendung von Reinforcement Learning (RL) auf große Sprachmodelle (LLMs) haben zu erheblichen Fortschritten geführt. Insbesondere wurde eine Reihe bemerkenswerter, aber oft kontraintuitiver Phänomene in LLMs berichtet, die Muster zeigen, die in traditionellen RL-Umgebungen typischerweise nicht beobachtet werden. Beispielsweise umfassen bemerkenswerte Behauptungen, dass ein einzelnes Trainingsbeispiel die Leistung erreichen kann, die mit einem gesamten Datensatz erzielt wird, dass das Belohnungssignal nicht sehr präzise sein muss und dass das Training ausschließlich mit negativen Beispielen die Leistung von anspruchsvollen belohnungsbasierten Methoden erreichen oder sogar übertreffen kann. Die genauen Bedingungen, unter denen diese Beobachtungen gelten – und, entscheidend, wann sie versagen – bleiben jedoch unklar. In dieser Arbeit identifizieren wir einen Schlüsselfaktor, der RL-Beobachtungen unterscheidet: ob das vortrainierte Modell bereits eine starke Modell-Aufgaben-Ausrichtung aufweist, gemessen an der pass@k-Genauigkeit bei der bewerteten Aufgabe. Durch eine systematische und umfassende Untersuchung einer Reihe kontraintuitiver Behauptungen, unterstützt durch rigorose experimentelle Validierung über verschiedene Modellarchitekturen und Aufgabenbereiche hinweg, zeigen unsere Ergebnisse, dass das standardmäßige RL-Training über verschiedene Einstellungen hinweg konsistent robust bleibt, viele dieser kontraintuitiven Ergebnisse jedoch nur dann auftreten, wenn Modell und Aufgabe bereits eine starke Modell-Aufgaben-Ausrichtung aufweisen. Im Gegensatz dazu scheitern diese Techniken in anspruchsvolleren Regimen, in denen standardmäßige RL-Methoden weiterhin effektiv sind, an der Förderung substanziellen Lernens.
English
Recent advances in applying reinforcement learning (RL) to large language models (LLMs) have led to substantial progress. In particular, a series of remarkable yet often counterintuitive phenomena have been reported in LLMs, exhibiting patterns not typically observed in traditional RL settings. For example, notable claims include that a single training example can match the performance achieved with an entire dataset, that the reward signal does not need to be very accurate, and that training solely with negative samples can match or even surpass sophisticated reward-based methods. However, the precise conditions under which these observations hold - and, critically, when they fail - remain unclear. In this work, we identify a key factor that differentiates RL observations: whether the pretrained model already exhibits strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated task. Through a systematic and comprehensive examination of a series of counterintuitive claims, supported by rigorous experimental validation across different model architectures and task domains, our findings show that while standard RL training remains consistently robust across settings, many of these counterintuitive results arise only when the model and task already exhibit strong model-task alignment. In contrast, these techniques fail to drive substantial learning in more challenging regimes, where standard RL methods remain effective.
PDF82September 1, 2025