ChatPaper.aiChatPaper

Обучение языковых моделей критике с использованием обучения с подкреплением

Teaching Language Models to Critique via Reinforcement Learning

February 5, 2025
Авторы: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI

Аннотация

Обучение больших языковых моделей (LLM) критиковать и улучшать свои выводы является ключевым для создания систем, способных итеративно улучшаться, однако это фундаментально ограничивается способностью предоставлять точные суждения и действенные предложения. В данной работе мы изучаем критиков LLM для генерации кода и предлагаем CTRL, фреймворк для Обучения Критика через Обучение с Подкреплением, который обучает модель критика генерировать обратную связь, максимизирующую производительность коррекции для фиксированной модели генератора без участия человека. Наши результаты демонстрируют, что критики, обученные с помощью CTRL, значительно улучшают проходные баллы и смягчают накапливающиеся ошибки как для базовых, так и для более мощных моделей генераторов. Более того, мы показываем, что эти модели критиков действуют как точные генеративные модели вознаграждения и позволяют масштабирование на этапе тестирования через итеративное критическое редактирование, достигая до 106,1% относительного улучшения по сложным бенчмаркам генерации кода.
English
Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.

Summary

AI-Generated Summary

PDF242February 12, 2025