ProEval: Descubrimiento Proactivo de Fallos y Estimación Eficiente del Rendimiento para la Evaluación de la Inteligencia Artificial Generativa

Resumen

La evaluación de modelos de IA generativa es cada vez más costosa en recursos debido a la inferencia lenta, la elevada tarificación de los evaluadores humanos y el panorama en rápida expansión de modelos y puntos de referencia. Proponemos ProEval, un marco de evaluación proactivo que aprovecha el aprendizaje por transferencia para estimar eficientemente el rendimiento e identificar casos de fallo. ProEval emplea Procesos Gaussianos (PG) preentrenados como sustitutos de la función de puntuación de rendimiento, mapeando las entradas del modelo a métricas como la gravedad de los errores o las violaciones de seguridad. Al enmarcar la estimación del rendimiento como cuadratura bayesiana (CB) y el descubrimiento de fallos como muestreo de conjuntos de nivel superior, desarrollamos estrategias de decisión conscientes de la incertidumbre que seleccionan o sintetizan activamente entradas altamente informativas para las pruebas. Teóricamente, demostramos que nuestro estimador de CB basado en PG preentrenados es insesgado y acotado. Empíricamente, experimentos exhaustivos en puntos de referencia de razonamiento, alineación de seguridad y clasificación demuestran que ProEval es significativamente más eficiente que los métodos base competitivos. Requiere entre 8 y 65 veces menos muestras para lograr estimaciones dentro del 1% del valor real, mientras revela simultáneamente casos de fallo más diversos bajo un presupuesto de evaluación más estricto.

English

Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.

ProEval: Descubrimiento Proactivo de Fallos y Estimación Eficiente del Rendimiento para la Evaluación de la Inteligencia Artificial Generativa

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Resumen

Support