Обучение языковых моделей критике с использованием обучения с подкреплением
Teaching Language Models to Critique via Reinforcement Learning
February 5, 2025
Авторы: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI
Аннотация
Обучение больших языковых моделей (LLM) критиковать и улучшать свои выводы является ключевым для создания систем, способных итеративно улучшаться, однако это фундаментально ограничивается способностью предоставлять точные суждения и действенные предложения. В данной работе мы изучаем критиков LLM для генерации кода и предлагаем CTRL, фреймворк для Обучения Критика через Обучение с Подкреплением, который обучает модель критика генерировать обратную связь, максимизирующую производительность коррекции для фиксированной модели генератора без участия человека. Наши результаты демонстрируют, что критики, обученные с помощью CTRL, значительно улучшают проходные баллы и смягчают накапливающиеся ошибки как для базовых, так и для более мощных моделей генераторов. Более того, мы показываем, что эти модели критиков действуют как точные генеративные модели вознаграждения и позволяют масштабирование на этапе тестирования через итеративное критическое редактирование, достигая до 106,1% относительного улучшения по сложным бенчмаркам генерации кода.
English
Teaching large language models (LLMs) to critique and refine their outputs is
crucial for building systems that can iteratively improve, yet it is
fundamentally limited by the ability to provide accurate judgments and
actionable suggestions. In this work, we study LLM critics for code generation
and propose CTRL, a framework for Critic
Training via Reinforcement Learning, which
trains a critic model to generate feedback that maximizes correction
performance for a fixed generator model without human supervision. Our results
demonstrate that critics trained with CTRL significantly enhance
pass rates and mitigate compounding errors across both base and stronger
generator models. Furthermore, we show that these critic models act as accurate
generative reward models and enable test-time scaling through iterative
critique-revision, achieving up to 106.1% relative improvements across
challenging code generation benchmarks.Summary
AI-Generated Summary