Engaño en las evaluaciones automáticas de LLM: Los modelos nulos logran altas tasas de victoria

Resumen

Los benchmarks automáticos de LLM, como AlpacaEval 2.0, Arena-Hard-Auto y MT-Bench, se han vuelto populares para evaluar modelos de lenguaje debido a su rentabilidad y escalabilidad en comparación con la evaluación humana. Lograr altas tasas de victoria en estos benchmarks puede aumentar significativamente el impacto promocional de los nuevos modelos de lenguaje lanzados. Este beneficio promocional puede motivar trucos, como manipular la longitud o el estilo de la salida del modelo para aumentar las tasas de victoria, a pesar de que se han desarrollado varios mecanismos para controlar la longitud y desentrañar el estilo para reducir la posibilidad de manipulación. Sin embargo, demostramos que incluso un "modelo nulo" que siempre emite una respuesta constante (irrelevante para las instrucciones de entrada) puede hacer trampa en los benchmarks automáticos y lograr tasas de victoria de alto rango: una tasa de victoria del 86.5% en AlpacaEval 2.0; una puntuación de 83.0 en Arena-Hard-Auto; y una puntuación de 9.55 en MT-Bench. Además, las salidas tramposas elaboradas son transferibles porque asumimos que las instrucciones de estos benchmarks (por ejemplo, 805 muestras de AlpacaEval 2.0) son privadas y no pueden ser accedidas. Si bien nuestros experimentos son principalmente una prueba de concepto, un adversario podría utilizar LLM para generar respuestas tramposas más imperceptibles, beneficiándose de manera poco ética de altas tasas de victoria e impacto promocional. Nuestros hallazgos destacan la necesidad de desarrollar mecanismos contra el fraude para benchmarks automáticos confiables. El código está disponible en https://github.com/sail-sg/Cheating-LLM-Benchmarks.

English

Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a "null model" that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.

Engaño en las evaluaciones automáticas de LLM: Los modelos nulos logran altas tasas de victoria

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Resumen

Support