ChatPaper.aiChatPaper

SPC: 대규모 언어 모델 추론을 위한 적대적 게임을 통한 자기 대결 비평가 진화

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

April 27, 2025
저자: Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
cs.AI

초록

체인 오브 사고(Chain-of-Thought)와 같은 대규모 언어 모델(LLM)의 단계별 추론 신뢰성을 평가하는 것은 고품질의 단계별 감독 데이터를 얻는 데 어려움과 비용이 따르기 때문에 여전히 도전적인 과제로 남아 있습니다. 본 논문에서는 수동으로 단계별 주석을 달 필요 없이, 비평 모델이 적대적 자기 대결 게임을 통해 추론 단계를 평가하는 능력을 진화시키는 새로운 접근 방식인 Self-Play Critic(SPC)을 소개합니다. SPC는 기본 모델의 두 복사본을 미세 조정하여 두 가지 역할을 수행하도록 합니다. 하나는 감지하기 어려운 오류가 포함된 단계를 의도적으로 생성하는 "교묘한 생성기(sneaky generator)"이고, 다른 하나는 추론 단계의 정확성을 분석하는 "비평가(critic)"입니다. 이 두 모델은 생성기가 비평가를 속이려 하고, 비평가는 생성기의 오류를 식별하려는 적대적 게임에 참여합니다. 게임 결과를 기반으로 한 강화 학습을 통해 모델은 반복적으로 개선됩니다. 각 대결에서 승자는 긍정적인 보상을 받고 패자는 부정적인 보상을 받으며, 이를 통해 지속적인 자기 진화가 이루어집니다. 세 가지 추론 프로세스 벤치마크(ProcessBench, PRM800K, DeltaBench)에서의 실험 결과, SPC는 오류 탐지 능력을 점진적으로 향상시키며(예: ProcessBench에서 정확도가 70.8%에서 77.7%로 증가), 증류된 R1 모델을 포함한 강력한 베이스라인을 능가하는 것으로 나타났습니다. 또한, SPC를 다양한 LLM의 테스트 시간 탐색을 안내하는 데 적용하면 MATH500과 AIME2024에서의 수학적 추론 성능이 크게 향상되어 최신 프로세스 보상 모델을 능가하는 결과를 보였습니다.
English
Evaluating the step-by-step reliability of large language model (LLM) reasoning, such as Chain-of-Thought, remains challenging due to the difficulty and cost of obtaining high-quality step-level supervision. In this paper, we introduce Self-Play Critic (SPC), a novel approach where a critic model evolves its ability to assess reasoning steps through adversarial self-play games, eliminating the need for manual step-level annotation. SPC involves fine-tuning two copies of a base model to play two roles, namely a "sneaky generator" that deliberately produces erroneous steps designed to be difficult to detect, and a "critic" that analyzes the correctness of reasoning steps. These two models engage in an adversarial game in which the generator aims to fool the critic, while the critic model seeks to identify the generator's errors. Using reinforcement learning based on the game outcomes, the models iteratively improve; the winner of each confrontation receives a positive reward and the loser receives a negative reward, driving continuous self-evolution. Experiments on three reasoning process benchmarks (ProcessBench, PRM800K, DeltaBench) demonstrate that our SPC progressively enhances its error detection capabilities (e.g., accuracy increases from 70.8% to 77.7% on ProcessBench) and surpasses strong baselines, including distilled R1 model. Furthermore, applying SPC to guide the test-time search of diverse LLMs significantly improves their mathematical reasoning performance on MATH500 and AIME2024, outperforming state-of-the-art process reward models.

Summary

AI-Generated Summary

PDF142April 29, 2025