ProEval: Проактивное выявление сбоев и эффективная оценка производительности для тестирования генеративного ИИ
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation
April 25, 2026
Авторы: Yizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang
cs.AI
Аннотация
Оценка генеративных моделей искусственного интеллекта становится все более ресурсоемкой из-за медленного вывода, дорогостоящих оценщиков и быстро растущего числа моделей и тестовых наборов. Мы предлагаем ProEval, проактивную систему оценки, которая использует трансферное обучение для эффективного прогнозирования производительности и выявления случаев сбоев. ProEval применяет предварительно обученные гауссовы процессы (GP) в качестве суррогатов функции оценки производительности, отображая входные данные модели в метрики, такие как серьезность ошибок или нарушений безопасности. Формулируя оценку производительности как байесовское интегрирование (BQ), а поиск сбоев как выборку из суперуровневого множества, мы разрабатываем стратегии принятия решений с учетом неопределенности, которые активно выбирают или синтезируют высокоинформативные входные данные для тестирования. Теоретически мы доказываем, что наш BQ-оценщик на основе предварительно обученных GP является несмещенным и ограниченным. Эмпирические результаты масштабных экспериментов на наборах данных для проверки рассуждений, безопасности и классификации демонстрируют, что ProEval значительно эффективнее конкурирующих методов. Для достижения оценок в пределах 1% от истинных значений ему требуется в 8–65 раз меньше образцов, одновременно выявляя более разнообразные случаи сбоев при более строгом бюджете оценки.
English
Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.