Permettre une surveillance évolutive évolutive grâce à un critique auto-évolutif.
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
Auteurs: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Résumé
Malgré leurs performances remarquables, le développement des Grands Modèles de Langage (GML) est confronté à un défi critique en matière de supervision évolutive : fournir des retours efficaces pour des tâches où l'évaluation humaine est difficile ou où les GML surpassent les humains. Alors qu'il existe un intérêt croissant pour l'utilisation des GML pour la critique, les approches actuelles reposent encore sur des annotations humaines ou des modèles plus puissants, laissant en suspens la question de l'amélioration des capacités de critique sans supervision externe. Nous présentons SCRIT (CRITique auto-évolutive), un cadre qui permet une véritable auto-évolution des capacités de critique. Techniquement, SCRIT s'améliore en s'entraînant sur des données synthétiques, générées par un auto-critique basé sur le contraste qui utilise des solutions de référence pour la critique étape par étape, et un mécanisme d'auto-validation qui garantit la qualité de la critique grâce aux résultats de correction. Implémenté avec Qwen2.5-72B-Instruct, l'un des GML les plus puissants, SCRIT atteint jusqu'à une amélioration de 10,3\% sur les benchmarks de correction de critique et d'identification d'erreurs. Notre analyse révèle que les performances de SCRIT évoluent positivement avec la taille des données et du modèle, surpassent les approches alternatives, et bénéficient de manière critique de son composant d'auto-validation.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary