ChatPaper.aiChatPaper

Het aanleren van taalmodellen om kritiek te leveren via versterkend leren.

Teaching Language Models to Critique via Reinforcement Learning

February 5, 2025
Auteurs: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI

Samenvatting

Het onderwijzen van grote taalmodellen (LLM's) om hun uitvoer te beoordelen en te verfijnen is cruciaal voor het bouwen van systemen die iteratief kunnen verbeteren, maar het wordt fundamenteel beperkt door het vermogen om nauwkeurige oordelen en bruikbare suggesties te geven. In dit werk bestuderen we LLM-critici voor codegeneratie en stellen CTRL voor, een raamwerk voor Critic Training via Reinforcement Learning, dat een criticusmodel traint om feedback te genereren die de correctieprestaties maximaliseert voor een vast generatormodel zonder menselijk toezicht. Onze resultaten tonen aan dat critici die zijn getraind met CTRL aanzienlijk de slaagpercentages verbeteren en opeenhopende fouten verminderen bij zowel basis- als krachtigere generatormodellen. Bovendien laten we zien dat deze criticusmodellen optreden als nauwkeurige generatieve beloningsmodellen en testtijdvergroting mogelijk maken door middel van iteratieve beoordeling-herziening, waarbij tot 106,1% relatieve verbeteringen worden behaald over uitdagende codegeneratie-benchmarks.
English
Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.
PDF242February 12, 2025