ChatPaper.aiChatPaper

NOVER: Anreiztraining für Sprachmodelle durch verifiziererfreies Reinforcement Learning

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning

May 21, 2025
Autoren: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI

Zusammenfassung

Jüngste Fortschritte wie DeepSeek R1-Zero unterstreichen die Wirksamkeit von Incentive-Training, einem Paradigma des Reinforcement Learning, das Belohnungen ausschließlich auf der Grundlage des finalen Antwortteils der Ausgabe eines Sprachmodells berechnet und dadurch die Generierung von Zwischenschritten in der Argumentation fördert. Diese Methoden sind jedoch grundsätzlich auf externe Verifizierer angewiesen, was ihre Anwendbarkeit auf Bereiche wie Mathematik und Programmierung beschränkt, in denen solche Verifizierer leicht verfügbar sind. Obwohl Belohnungsmodelle als Verifizierer dienen können, erfordern sie hochwertige annotierte Daten und sind kostspielig zu trainieren. In dieser Arbeit schlagen wir NOVER vor, NO-VERifier Reinforcement Learning, ein allgemeines Reinforcement-Learning-Framework, das nur standardmäßige feinabgestimmte Supervised-Learning-Daten benötigt und keinen externen Verifizierer erfordert. NOVER ermöglicht Incentive-Training über eine breite Palette von Text-zu-Text-Aufgaben hinweg und übertrifft das Modell gleicher Größe, das aus großen Argumentationsmodellen wie DeepSeek R1 671B destilliert wurde, um 7,7 Prozent. Darüber hinaus eröffnet die Flexibilität von NOVER neue Möglichkeiten zur Optimierung großer Sprachmodelle, wie beispielsweise inverses Incentive-Training.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of incentive training, a reinforcement learning paradigm that computes rewards solely based on the final answer part of a language model's output, thereby encouraging the generation of intermediate reasoning steps. However, these methods fundamentally rely on external verifiers, which limits their applicability to domains like mathematics and coding where such verifiers are readily available. Although reward models can serve as verifiers, they require high-quality annotated data and are costly to train. In this work, we propose NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning framework that requires only standard supervised fine-tuning data with no need for an external verifier. NOVER enables incentive training across a wide range of text-to-text tasks and outperforms the model of the same size distilled from large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the flexibility of NOVER enables new possibilities for optimizing large language models, such as inverse incentive training.

Summary

AI-Generated Summary

PDF25May 26, 2025