ProEval: Scoperta Proattiva dei Fallimenti e Stima Efficiente delle Prestazioni per la Valutazione dell'Intelligenza Artificiale Generativa

Abstract

La valutazione dei modelli di intelligenza artificiale generativa sta diventando sempre più onerosa in termini di risorse, a causa dell'inferenza lenta, dei costi elevati per i valutatori umani e del panorama in rapida crescita di modelli e benchmark. Proponiamo ProEval, un framework di valutazione proattiva che sfrutta il transfer learning per stimare efficientemente le prestazioni e identificare i casi di fallimento. ProEval utilizza Processi Gaussiani (GP) pre-addestrati come surrogate per la funzione del punteggio di performance, mappando gli input del modello a metriche come la gravità degli errori o delle violazioni della sicurezza. Inquadrando la stima delle prestazioni come quadratura bayesiana (BQ) e la scoperta dei fallimenti come campionamento di insiemi di livello superiore, sviluppiamo strategie decisionali aware dell'incertezza che selezionano o sintetizzano attivamente input altamente informativi per i test. Da un punto di vista teorico, dimostriamo che il nostro stimatore BQ basato su GP pre-addestrato è non distorto e limitato. Empiricamente, esperimenti estesi su benchmark di ragionamento, allineamento alla sicurezza e classificazione dimostrano che ProEval è significativamente più efficiente rispetto ai baseline competitivi. Richiede da 8 a 65 volte in meno di campioni per ottenere stime entro l'1% del ground truth, rivelando simultaneamente casi di fallimento più diversificati con un budget di valutazione più restrittivo.

English

Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.

ProEval: Scoperta Proattiva dei Fallimenti e Stima Efficiente delle Prestazioni per la Valutazione dell'Intelligenza Artificiale Generativa

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Abstract

Support