ChatPaper.aiChatPaper

SPC: Evolução do Crítico de Autojogo por meio de Jogos Adversariais para Raciocínio em Modelos de Linguagem de Grande Escala

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

April 27, 2025
Autores: Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
cs.AI

Resumo

Avaliar a confiabilidade passo a passo do raciocínio de modelos de linguagem de grande escala (LLM), como o Chain-of-Thought, continua sendo um desafio devido à dificuldade e ao custo de obter supervisão de alta qualidade em nível de etapa. Neste artigo, apresentamos o Self-Play Critic (SPC), uma abordagem inovadora em que um modelo crítico evolui sua capacidade de avaliar etapas de raciocínio por meio de jogos adversariais de autojogo, eliminando a necessidade de anotação manual em nível de etapa. O SPC envolve o ajuste fino de duas cópias de um modelo base para desempenhar dois papéis: um "gerador sorrateiro" que deliberadamente produz etapas errôneas projetadas para serem difíceis de detectar, e um "crítico" que analisa a correção das etapas de raciocínio. Esses dois modelos se envolvem em um jogo adversarial no qual o gerador visa enganar o crítico, enquanto o modelo crítico busca identificar os erros do gerador. Usando aprendizado por reforço baseado nos resultados do jogo, os modelos melhoram iterativamente; o vencedor de cada confronto recebe uma recompensa positiva e o perdedor recebe uma recompensa negativa, impulsionando uma contínua auto-evolução. Experimentos em três benchmarks de processos de raciocínio (ProcessBench, PRM800K, DeltaBench) demonstram que nosso SPC aprimora progressivamente suas capacidades de detecção de erros (por exemplo, a precisão aumenta de 70,8% para 77,7% no ProcessBench) e supera fortes baselines, incluindo o modelo R1 destilado. Além disso, a aplicação do SPC para orientar a busca em tempo de teste de diversos LLMs melhora significativamente seu desempenho em raciocínio matemático no MATH500 e AIME2024, superando os modelos de recompensa de processo mais avançados.
English
Evaluating the step-by-step reliability of large language model (LLM) reasoning, such as Chain-of-Thought, remains challenging due to the difficulty and cost of obtaining high-quality step-level supervision. In this paper, we introduce Self-Play Critic (SPC), a novel approach where a critic model evolves its ability to assess reasoning steps through adversarial self-play games, eliminating the need for manual step-level annotation. SPC involves fine-tuning two copies of a base model to play two roles, namely a "sneaky generator" that deliberately produces erroneous steps designed to be difficult to detect, and a "critic" that analyzes the correctness of reasoning steps. These two models engage in an adversarial game in which the generator aims to fool the critic, while the critic model seeks to identify the generator's errors. Using reinforcement learning based on the game outcomes, the models iteratively improve; the winner of each confrontation receives a positive reward and the loser receives a negative reward, driving continuous self-evolution. Experiments on three reasoning process benchmarks (ProcessBench, PRM800K, DeltaBench) demonstrate that our SPC progressively enhances its error detection capabilities (e.g., accuracy increases from 70.8% to 77.7% on ProcessBench) and surpasses strong baselines, including distilled R1 model. Furthermore, applying SPC to guide the test-time search of diverse LLMs significantly improves their mathematical reasoning performance on MATH500 and AIME2024, outperforming state-of-the-art process reward models.
PDF182April 29, 2025