Het mogelijk maken van schaalbaar toezicht via zelfevoluerende criticus.
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
Auteurs: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Samenvatting
Ondanks hun opmerkelijke prestaties staat de ontwikkeling van Grote Taalmodellen (LLMs) voor een cruciale uitdaging op het gebied van schaalbare controle: het bieden van effectieve feedback voor taken waar menselijke evaluatie moeilijk is of waar LLMs mensen overtreffen. Hoewel er steeds meer interesse is in het gebruik van LLMs voor kritiek, vertrouwen huidige benaderingen nog steeds op menselijke annotaties of krachtigere modellen, waardoor het verbeteren van de kritiekcapaciteiten zonder externe supervisie onopgelost blijft. Wij introduceren SCRIT (Zelf-evoluerende CRITicus), een raamwerk dat echte zelfevolutie van kritiekvaardigheden mogelijk maakt. Technisch gezien verbetert SCRIT zichzelf door te trainen op synthetische gegevens, gegenereerd door een contrastieve zelfkritiek die referentieoplossingen gebruikt voor stapsgewijze kritiek, en een zelfvalidatiemechanisme dat kritiekkwaliteit waarborgt via correctie-uitkomsten. Geïmplementeerd met Qwen2.5-72B-Instruct, een van de krachtigste LLMs, behaalt SCRIT tot wel 10,3% verbetering op kritiek-correctie- en foutidentificatie-benchmarks. Onze analyse onthult dat de prestaties van SCRIT positief schalen met gegevens- en modelgrootte, alternatieve benaderingen overtreffen, en kritisch profiteert van zijn zelfvalidatiecomponent.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary