Das Lehren von Sprachmodellen, Kritik zu üben mittels Verstärkungslernen
Teaching Language Models to Critique via Reinforcement Learning
February 5, 2025
Autoren: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI
Zusammenfassung
Das Unterrichten großer Sprachmodelle (LLMs), um ihre Ausgaben zu kritisieren und zu verfeinern, ist entscheidend für den Aufbau von Systemen, die sich iterativ verbessern können, wird jedoch grundlegend durch die Fähigkeit begrenzt, genaue Beurteilungen und umsetzbare Vorschläge zu liefern. In dieser Arbeit untersuchen wir LLM-Kritiker für die Codegenerierung und schlagen CTRL vor, ein Rahmenwerk für die Kritiker-Schulung mittels Verstärkungslernen, das ein Kritikermodell trainiert, um Feedback zu generieren, das die Korrekturleistung für ein festes Generatormodell ohne menschliche Aufsicht maximiert. Unsere Ergebnisse zeigen, dass Kritiker, die mit CTRL trainiert wurden, die Bestehensquoten signifikant verbessern und Fehlerkumulationen sowohl bei Basismodellen als auch bei stärkeren Generatormodellen verringern. Darüber hinaus zeigen wir, dass diese Kritikermodelle als genaue generative Belohnungsmodelle fungieren und eine Skalierung zur Testzeit durch iterative Kritik-Revision ermöglichen, wodurch bis zu 106,1% relative Verbesserungen bei anspruchsvollen Codegenerierungstests erzielt werden.
English
Teaching large language models (LLMs) to critique and refine their outputs is
crucial for building systems that can iteratively improve, yet it is
fundamentally limited by the ability to provide accurate judgments and
actionable suggestions. In this work, we study LLM critics for code generation
and propose CTRL, a framework for Critic
Training via Reinforcement Learning, which
trains a critic model to generate feedback that maximizes correction
performance for a fixed generator model without human supervision. Our results
demonstrate that critics trained with CTRL significantly enhance
pass rates and mitigate compounding errors across both base and stronger
generator models. Furthermore, we show that these critic models act as accurate
generative reward models and enable test-time scaling through iterative
critique-revision, achieving up to 106.1% relative improvements across
challenging code generation benchmarks.Summary
AI-Generated Summary