ChatPaper.aiChatPaper

DeepCritic: 대형 언어 모델을 활용한 의도적 비평

DeepCritic: Deliberate Critique with Large Language Models

May 1, 2025
저자: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI

초록

대규모 언어 모델(LLM)이 빠르게 진화함에 따라, 이들의 출력에 대한 정확한 피드백과 확장 가능한 감독을 제공하는 것이 시급하고 중요한 문제로 대두되고 있습니다. LLM을 비평 모델로 활용하여 자동화된 감독을 달성하는 것은 유망한 해결책입니다. 본 연구에서는 LLM의 수학 비평 능력을 연구하고 향상시키는 데 초점을 맞추었습니다. 현재의 LLM 비평 모델은 각 단계에 대한 비평이 너무 피상적이고 얕아, 판단 정확도가 낮고 LLM 생성기가 실수를 수정할 수 있는 충분한 피드백을 제공하지 못하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 수학 문제 해결의 각 추론 단계를 신중하게 비평할 수 있는 LLM 비평 모델을 개발하기 위한 새로운 두 단계 프레임워크를 제안합니다. 첫 번째 단계에서는 Qwen2.5-72B-Instruct를 활용하여 4.5K개의 장문 비평을 생성하여 지도 학습을 위한 시드 데이터로 사용합니다. 각 시드 비평은 다각도의 검증과 각 추론 단계에 대한 초기 비평의 심층적인 비평을 포함하는 신중한 단계별 비평으로 구성됩니다. 그런 다음, PRM800K의 기존 인간 주석 데이터 또는 몬테카를로 샘플링 기반 정확도 추정을 통해 자동으로 주석 처리한 데이터를 사용하여 미세 조정된 모델에 강화 학습을 수행하여 비평 능력을 더욱 강화합니다. Qwen2.5-7B-Instruct를 기반으로 개발된 우리의 비평 모델은 다양한 오류 식별 벤치마크에서 기존의 LLM 비평 모델(동일 규모의 DeepSeek-R1-distill 모델 및 GPT-4o 포함)을 크게 능가할 뿐만 아니라, 더 상세한 피드백을 통해 LLM 생성기가 오류가 있는 단계를 더 효과적으로 개선할 수 있도록 돕습니다.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.

Summary

AI-Generated Summary

PDF447May 4, 2025