ChatPaper.aiChatPaper

Facilitando la supervisión escalable a través de un crítico auto-evolutivo.

Enabling Scalable Oversight via Self-Evolving Critic

January 10, 2025
Autores: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI

Resumen

A pesar de su notable rendimiento, el desarrollo de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) enfrenta un desafío crítico en cuanto a supervisión escalable: proporcionar retroalimentación efectiva para tareas donde la evaluación humana es difícil o donde los LLMs superan a los humanos. Aunque existe un creciente interés en utilizar LLMs para críticas, los enfoques actuales aún dependen de anotaciones humanas o modelos más potentes, dejando sin resolver el problema de mejorar las capacidades de crítica sin supervisión externa. Presentamos SCRIT (CRITico Auto-evolutivo), un marco que permite una genuina auto-evolución de las habilidades críticas. Técnicamente, SCRIT se mejora a sí mismo entrenando con datos sintéticos, generados por un auto-crítico basado en contrastes que utiliza soluciones de referencia para la crítica paso a paso, y un mecanismo de auto-validación que garantiza la calidad de la crítica a través de los resultados de corrección. Implementado con Qwen2.5-72B-Instruct, uno de los LLMs más potentes, SCRIT logra hasta un 10.3\% de mejora en los puntos de referencia de corrección de críticas e identificación de errores. Nuestro análisis revela que el rendimiento de SCRIT escala positivamente con el tamaño de los datos y del modelo, supera a los enfoques alternativos y se beneficia críticamente de su componente de auto-validación.
English
Despite their remarkable performance, the development of Large Language Models (LLMs) faces a critical challenge in scalable oversight: providing effective feedback for tasks where human evaluation is difficult or where LLMs outperform humans. While there is growing interest in using LLMs for critique, current approaches still rely on human annotations or more powerful models, leaving the issue of enhancing critique capabilities without external supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework that enables genuine self-evolution of critique abilities. Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based self-critic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs, SCRIT achieves up to a 10.3\% improvement on critique-correction and error identification benchmarks. Our analysis reveals that SCRIT's performance scales positively with data and model size, outperforms alternative approaches, and benefits critically from its self-validation component.

Summary

AI-Generated Summary

PDF752January 13, 2025