Enseigner aux Modèles de Langage à Critiquer via l'Apprentissage par Renforcement

papers.abstract

Enseigner aux grands modèles de langage (LLM) à critiquer et à affiner leurs sorties est crucial pour construire des systèmes capables de s'améliorer de manière itérative, mais cela est fondamentalement limité par la capacité à fournir des jugements précis et des suggestions exploitables. Dans ce travail, nous étudions les critiques des LLM pour la génération de code et proposons CTRL, un cadre pour l'Entraînement de Critiques via l'Apprentissage par Renforcement, qui entraîne un modèle critique à générer des retours qui maximisent les performances de correction pour un modèle générateur fixe sans supervision humaine. Nos résultats démontrent que les critiques formés avec CTRL améliorent significativement les taux de réussite et atténuent les erreurs cumulatives à travers les modèles générateurs de base et plus puissants. De plus, nous montrons que ces modèles critiques agissent en tant que modèles de récompense générative précis et permettent une mise à l'échelle au moment des tests à travers la critique-révision itérative, atteignant jusqu'à 106,1% d'améliorations relatives à travers des benchmarks de génération de code complexes.

English

Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.

Enseigner aux Modèles de Langage à Critiquer via l'Apprentissage par Renforcement

Teaching Language Models to Critique via Reinforcement Learning

papers.abstract

Support