DeepCritic: 대형 언어 모델을 활용한 의도적 비평DeepCritic: Deliberate Critique with Large Language Models
대규모 언어 모델(LLM)이 빠르게 진화함에 따라, 이들의 출력에 대한 정확한 피드백과 확장 가능한 감독을 제공하는 것이 시급하고 중요한 문제로 대두되고 있습니다. LLM을 비평 모델로 활용하여 자동화된 감독을 달성하는 것은 유망한 해결책입니다. 본 연구에서는 LLM의 수학 비평 능력을 연구하고 향상시키는 데 초점을 맞추었습니다. 현재의 LLM 비평 모델은 각 단계에 대한 비평이 너무 피상적이고 얕아, 판단 정확도가 낮고 LLM 생성기가 실수를 수정할 수 있는 충분한 피드백을 제공하지 못하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 수학 문제 해결의 각 추론 단계를 신중하게 비평할 수 있는 LLM 비평 모델을 개발하기 위한 새로운 두 단계 프레임워크를 제안합니다. 첫 번째 단계에서는 Qwen2.5-72B-Instruct를 활용하여 4.5K개의 장문 비평을 생성하여 지도 학습을 위한 시드 데이터로 사용합니다. 각 시드 비평은 다각도의 검증과 각 추론 단계에 대한 초기 비평의 심층적인 비평을 포함하는 신중한 단계별 비평으로 구성됩니다. 그런 다음, PRM800K의 기존 인간 주석 데이터 또는 몬테카를로 샘플링 기반 정확도 추정을 통해 자동으로 주석 처리한 데이터를 사용하여 미세 조정된 모델에 강화 학습을 수행하여 비평 능력을 더욱 강화합니다. Qwen2.5-7B-Instruct를 기반으로 개발된 우리의 비평 모델은 다양한 오류 식별 벤치마크에서 기존의 LLM 비평 모델(동일 규모의 DeepSeek-R1-distill 모델 및 GPT-4o 포함)을 크게 능가할 뿐만 아니라, 더 상세한 피드백을 통해 LLM 생성기가 오류가 있는 단계를 더 효과적으로 개선할 수 있도록 돕습니다.