Engaño en las evaluaciones automáticas de LLM: Los modelos nulos logran altas tasas de victoria
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
October 9, 2024
Autores: Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin
cs.AI
Resumen
Los benchmarks automáticos de LLM, como AlpacaEval 2.0, Arena-Hard-Auto y MT-Bench, se han vuelto populares para evaluar modelos de lenguaje debido a su rentabilidad y escalabilidad en comparación con la evaluación humana. Lograr altas tasas de victoria en estos benchmarks puede aumentar significativamente el impacto promocional de los nuevos modelos de lenguaje lanzados. Este beneficio promocional puede motivar trucos, como manipular la longitud o el estilo de la salida del modelo para aumentar las tasas de victoria, a pesar de que se han desarrollado varios mecanismos para controlar la longitud y desentrañar el estilo para reducir la posibilidad de manipulación. Sin embargo, demostramos que incluso un "modelo nulo" que siempre emite una respuesta constante (irrelevante para las instrucciones de entrada) puede hacer trampa en los benchmarks automáticos y lograr tasas de victoria de alto rango: una tasa de victoria del 86.5% en AlpacaEval 2.0; una puntuación de 83.0 en Arena-Hard-Auto; y una puntuación de 9.55 en MT-Bench. Además, las salidas tramposas elaboradas son transferibles porque asumimos que las instrucciones de estos benchmarks (por ejemplo, 805 muestras de AlpacaEval 2.0) son privadas y no pueden ser accedidas. Si bien nuestros experimentos son principalmente una prueba de concepto, un adversario podría utilizar LLM para generar respuestas tramposas más imperceptibles, beneficiándose de manera poco ética de altas tasas de victoria e impacto promocional. Nuestros hallazgos destacan la necesidad de desarrollar mecanismos contra el fraude para benchmarks automáticos confiables. El código está disponible en https://github.com/sail-sg/Cheating-LLM-Benchmarks.
English
Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and
MT-Bench, have become popular for evaluating language models due to their
cost-effectiveness and scalability compared to human evaluation. Achieving high
win rates on these benchmarks can significantly boost the promotional impact of
newly released language models. This promotional benefit may motivate tricks,
such as manipulating model output length or style to game win rates, even
though several mechanisms have been developed to control length and disentangle
style to reduce gameability. Nonetheless, we show that even a "null model" that
always outputs a constant response (irrelevant to input instructions) can cheat
automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on
AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench.
Moreover, the crafted cheating outputs are transferable because we assume that
the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are
private and cannot be accessed. While our experiments are primarily
proof-of-concept, an adversary could use LLMs to generate more imperceptible
cheating responses, unethically benefiting from high win rates and promotional
impact. Our findings call for the development of anti-cheating mechanisms for
reliable automatic benchmarks. The code is available at
https://github.com/sail-sg/Cheating-LLM-Benchmarks.Summary
AI-Generated Summary