ChatPaper.aiChatPaper

Critique-GRPO: Усовершенствование логического мышления больших языковых моделей с использованием обратной связи на естественном языке и числовых данных

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

June 3, 2025
Авторы: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI

Аннотация

Последние достижения в области обучения с подкреплением (RL) с числовой обратной связью, такой как скалярные награды, значительно улучшили способности крупных языковых моделей (LLM) к сложным рассуждениям. Однако, несмотря на эти успехи, мы выделяем три ключевые проблемы, с которыми сталкивается RL при использовании исключительно числовой обратной связи: плато производительности, ограниченная эффективность саморефлексии и устойчивые ошибки. Мы показываем, что модели, дообученные с помощью RL, даже после достижения плато производительности, могут генерировать корректные улучшения для задач с устойчивыми ошибками, используя обратную связь в виде критики на естественном языке. На основе этого наблюдения мы предлагаем Critique-GRPO — онлайн-фреймворк RL, который интегрирует как естественно-языковую, так и числовую обратную связь для эффективной оптимизации политик. Critique-GRPO позволяет LLM одновременно обучаться на начальных ответах и улучшениях, направляемых критикой, сохраняя при этом исследовательскую активность. Эксперименты с использованием моделей Qwen2.5-7B-Base и Qwen3-8B-Base демонстрируют, что Critique-GRPO стабильно превосходит подходы, основанные на обучении с учителем и RL, в восьми сложных задачах из области математики, STEM и общего рассуждения, улучшая средние показатели pass@1 примерно на 4,5% и 5% соответственно. Примечательно, что Critique-GRPO превосходит сильный базовый подход, включающий экспертные демонстрации в рамках онлайн RL. Дополнительный анализ выявляет два важных аспекта исследования политик: (1) более высокая энтропия не всегда гарантирует эффективное обучение через исследование, и (2) более длинные ответы не обязательно приводят к более эффективному исследованию.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.
PDF62June 5, 2025