ChatPaper.aiChatPaper

SPC: Evoluzione del Critico Self-Play tramite Giochi Adversarial per il Ragionamento nei Modelli Linguistici di Grande Scala

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

April 27, 2025
Autori: Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
cs.AI

Abstract

Valutare l'affidabilità passo-passo del ragionamento dei grandi modelli linguistici (LLM), come la Catena del Pensiero (Chain-of-Thought), rimane una sfida a causa della difficoltà e del costo associati all'ottenimento di una supervisione di alta qualità a livello di passaggio. In questo articolo, introduciamo il Critico a Gioco Autonomo (Self-Play Critic, SPC), un approccio innovativo in cui un modello critico evolve la sua capacità di valutare i passaggi di ragionamento attraverso giochi avversari autonomi, eliminando la necessità di annotazioni manuali a livello di passaggio. SPC prevede il fine-tuning di due copie di un modello base per interpretare due ruoli: un "generatore subdolo" che produce deliberatamente passaggi errati progettati per essere difficili da rilevare, e un "critico" che analizza la correttezza dei passaggi di ragionamento. Questi due modelli si impegnano in un gioco avversario in cui il generatore mira a ingannare il critico, mentre il modello critico cerca di identificare gli errori del generatore. Utilizzando l'apprendimento per rinforzo basato sugli esiti del gioco, i modelli migliorano iterativamente; il vincitore di ogni confronto riceve una ricompensa positiva e il perdente una ricompensa negativa, guidando una continua auto-evoluzione. Esperimenti su tre benchmark di processi di ragionamento (ProcessBench, PRM800K, DeltaBench) dimostrano che il nostro SPC migliora progressivamente le sue capacità di rilevamento degli errori (ad esempio, l'accuratezza aumenta dal 70,8% al 77,7% su ProcessBench) e supera solide baseline, incluso il modello R1 distillato. Inoltre, applicare SPC per guidare la ricerca al momento del test di diversi LLM migliora significativamente le loro prestazioni nel ragionamento matematico su MATH500 e AIME2024, superando i modelli di ricompensa di processo all'avanguardia.
English
Evaluating the step-by-step reliability of large language model (LLM) reasoning, such as Chain-of-Thought, remains challenging due to the difficulty and cost of obtaining high-quality step-level supervision. In this paper, we introduce Self-Play Critic (SPC), a novel approach where a critic model evolves its ability to assess reasoning steps through adversarial self-play games, eliminating the need for manual step-level annotation. SPC involves fine-tuning two copies of a base model to play two roles, namely a "sneaky generator" that deliberately produces erroneous steps designed to be difficult to detect, and a "critic" that analyzes the correctness of reasoning steps. These two models engage in an adversarial game in which the generator aims to fool the critic, while the critic model seeks to identify the generator's errors. Using reinforcement learning based on the game outcomes, the models iteratively improve; the winner of each confrontation receives a positive reward and the loser receives a negative reward, driving continuous self-evolution. Experiments on three reasoning process benchmarks (ProcessBench, PRM800K, DeltaBench) demonstrate that our SPC progressively enhances its error detection capabilities (e.g., accuracy increases from 70.8% to 77.7% on ProcessBench) and surpasses strong baselines, including distilled R1 model. Furthermore, applying SPC to guide the test-time search of diverse LLMs significantly improves their mathematical reasoning performance on MATH500 and AIME2024, outperforming state-of-the-art process reward models.

Summary

AI-Generated Summary

PDF142April 29, 2025