ProEval: Descoberta Proativa de Falhas e Estimativa Eficiente de Desempenho para Avaliação de IA Generativa

Resumo

A avaliação de modelos de IA generativa está a tornar-se cada vez mais dispendiosa em termos de recursos devido à inferência lenta, ao custo elevado dos avaliadores humanos e a um panorama de modelos e benchmarks em rápido crescimento. Propomos o ProEval, um quadro de avaliação proativa que aproveita a aprendizagem por transferência para estimar eficientemente o desempenho e identificar casos de falha. O ProEval utiliza Processos Gaussianos (PGs) pré-treinados como substitutos (surrogates) para a função de pontuação de desempenho, mapeando as entradas do modelo para métricas como a gravidade dos erros ou violações de segurança. Ao enquadrar a estimativa de desempenho como quadratura bayesiana (QB) e a descoberta de falhas como amostragem de conjuntos de nível superior, desenvolvemos estratégias de decisão conscientes da incerteza que selecionam ou sintetizam ativamente entradas altamente informativas para teste. Do ponto de vista teórico, provamos que o nosso estimador de QB baseado em PGs pré-treinados é não enviesado e limitado. Empiricamente, experiências extensas em benchmarks de raciocínio, alinhamento de segurança e classificação demonstram que o ProEval é significativamente mais eficiente do que os métodos baselines concorrentes. São necessárias 8 a 65 vezes menos amostras para obter estimativas dentro de 1% do valor real (ground truth), revelando simultaneamente casos de falha mais diversos sob um orçamento de avaliação mais rigoroso.

English

Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.

ProEval: Descoberta Proativa de Falhas e Estimativa Eficiente de Desempenho para Avaliação de IA Generativa

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Resumo

Support