ProEval : Détection proactive des défaillances et estimation efficace des performances pour l'évaluation de l'IA générative

Résumé

L'évaluation des modèles d'IA générative devient de plus en plus coûteuse en ressources en raison d'inférences lentes, d'évaluateurs humains onéreux et d'un paysage de modèles et de benchmarks en croissance rapide. Nous proposons ProEval, un cadre d'évaluation proactive qui exploite l'apprentissage par transfert pour estimer efficacement les performances et identifier les cas d'échec. ProEval utilise des processus gaussiens (PG) pré-entraînés comme substituts de la fonction de score de performance, cartographiant les entrées du modèle vers des métriques telles que la gravité des erreurs ou des violations de sécurité. En formulant l'estimation des performances comme une quadrature bayésienne (QB) et la découverte des échecs comme un échantillonnage d'ensemble de superniveau, nous développons des stratégies de décision prenant en compte l'incertitude, qui sélectionnent ou synthétisent activement des entrées très informatives pour les tests. Théoriquement, nous prouvons que notre estimateur de QB basé sur des PG pré-entraînés est non biaisé et borné. Empiriquement, des expériences approfondies sur des benchmarks de raisonnement, d'alignement de la sécurité et de classification démontrent que ProEval est nettement plus efficace que les bases de comparaison compétitives. Il nécessite 8 à 65 fois moins d'échantillons pour obtenir des estimations à moins de 1% de la vérité terrain, tout en révélant simultanément des cas d'échec plus diversifiés sous un budget d'évaluation plus strict.

English

Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.

ProEval : Détection proactive des défaillances et estimation efficace des performances pour l'évaluation de l'IA générative

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Résumé

Support