Обеспечение масштабируемого контроля с помощью саморазвивающегося критика.
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
Авторы: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Аннотация
Несмотря на выдающуюся производительность, развитие больших языковых моделей (LLM) сталкивается с критическим вызовом в масштабируемом контроле: обеспечение эффективной обратной связи для задач, где сложно проводить человеческую оценку или где LLM превосходят людей. В то время как растет интерес к использованию LLM для критики, текущие подходы все еще зависят от аннотаций людей или более мощных моделей, оставляя проблему улучшения возможностей критики без внешнего надзора нерешенной. Мы представляем SCRIT (Self-evolving CRITic), фреймворк, который позволяет подлинное саморазвитие способностей критики. Технически SCRIT самосовершенствуется путем обучения на синтетических данных, созданных контрастивно-основанным самокритиком, использующим эталонные решения для пошаговой критики, и механизмом самопроверки, который обеспечивает качество критики через результаты коррекции. Реализованный с использованием Qwen2.5-72B-Instruct, одной из самых мощных LLM, SCRIT достигает до 10,3\% улучшения на бенчмарках критики-коррекции и идентификации ошибок. Наш анализ показывает, что производительность SCRIT положительно масштабируется с увеличением данных и размера модели, превосходит альтернативные подходы и критически выигрывает от своего компонента самопроверки.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary