ProEval: Proaktive Fehlererkennung und effiziente Leistungsbewertung für die Evaluierung generativer KI.
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation
April 25, 2026
Autoren: Yizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang
cs.AI
Zusammenfassung
Die Evaluierung generativer KI-Modelle wird aufgrund langsamer Inferenz, teurer Bewertungen und einer rasant wachsenden Anzahl von Modellen und Benchmarks zunehmend ressourcenintensiv. Wir schlagen ProEval vor, einen proaktiven Evaluierungsrahmen, der Transfer Learning nutzt, um Leistung effizient zu schätzen und Fehlerfälle zu identifizieren. ProEval verwendet vortrainierte Gaußprozesse (GPs) als Surrogate für die Leistungsbewertungsfunktion, die Modelleingaben auf Metriken wie die Schwere von Fehlern oder Sicherheitsverletzungen abbildet. Indem wir Leistungsschätzung als Bayes-Quadratur (BQ) und Fehlerentdeckung als Superlevel-Set-Sampling formulieren, entwickeln wir unsicherheitsbewusste Entscheidungsstrategien, die aktiv hochinformativen Eingaben für Tests auswählen oder synthetisieren. Theoretisch beweisen wir, dass unser auf vortrainierten GPs basierender BQ-Schätzer erwartungstreu und beschränkt ist. Empirisch zeigen umfangreiche Experimente mit Reasoning-, Safety-Alignment- und Klassifikations-Benchmarks, dass ProEval signifikant effizienter als wettbewerbsfähige Baseline-Methoden ist. Es benötigt 8-65x weniger Stichproben, um Schätzungen innerhalb von 1% des Ground Truth zu erreichen, und deckt gleichzeitig unter strengerem Evaluierungsbudget diversere Fehlerfälle auf.
English
Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.