Das Lehren von Sprachmodellen, Kritik zu üben mittels Verstärkungslernen

papers.abstract

Das Unterrichten großer Sprachmodelle (LLMs), um ihre Ausgaben zu kritisieren und zu verfeinern, ist entscheidend für den Aufbau von Systemen, die sich iterativ verbessern können, wird jedoch grundlegend durch die Fähigkeit begrenzt, genaue Beurteilungen und umsetzbare Vorschläge zu liefern. In dieser Arbeit untersuchen wir LLM-Kritiker für die Codegenerierung und schlagen CTRL vor, ein Rahmenwerk für die Kritiker-Schulung mittels Verstärkungslernen, das ein Kritikermodell trainiert, um Feedback zu generieren, das die Korrekturleistung für ein festes Generatormodell ohne menschliche Aufsicht maximiert. Unsere Ergebnisse zeigen, dass Kritiker, die mit CTRL trainiert wurden, die Bestehensquoten signifikant verbessern und Fehlerkumulationen sowohl bei Basismodellen als auch bei stärkeren Generatormodellen verringern. Darüber hinaus zeigen wir, dass diese Kritikermodelle als genaue generative Belohnungsmodelle fungieren und eine Skalierung zur Testzeit durch iterative Kritik-Revision ermöglichen, wodurch bis zu 106,1% relative Verbesserungen bei anspruchsvollen Codegenerierungstests erzielt werden.

English

Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.

Das Lehren von Sprachmodellen, Kritik zu üben mittels Verstärkungslernen

Teaching Language Models to Critique via Reinforcement Learning

papers.abstract

Support