TurtleBench: Evaluación de los principales modelos de lenguaje a través de acertijos de sí o no del mundo real
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles
October 7, 2024
Autores: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI
Resumen
A medida que la aplicación de Modelos de Lenguaje Grandes (MLGs) se expande, la demanda de evaluaciones confiables aumenta. Los bancos de pruebas existentes para evaluar MLGs se basan principalmente en conjuntos de datos estáticos, lo que dificulta evaluar el rendimiento del modelo en interacciones dinámicas con los usuarios. Además, estos bancos de pruebas a menudo dependen de conocimientos específicos, lo que complica la medición de las capacidades de razonamiento lógico de un modelo. Otros métodos de evaluación dinámica basados en modelos sólidos o esfuerzos manuales pueden introducir sesgos y conllevar altos costos y demandas de tiempo, dificultando su aplicación a gran escala. Para abordar estos problemas, proponemos TurtleBench. TurtleBench recopila suposiciones reales de usuarios de nuestra plataforma en línea Turtle Soup Puzzle que desarrollamos. Este enfoque permite la generación relativamente dinámica de conjuntos de datos de evaluación, mitigando el riesgo de trampas del modelo y alineando las evaluaciones de manera más cercana a las necesidades genuinas de los usuarios en cuanto a capacidades de razonamiento, mejorando así la fiabilidad de las evaluaciones. TurtleBench incluye 1,532 suposiciones de usuarios junto con la corrección de las suposiciones después de la anotación. Utilizando este conjunto de datos, evaluamos a fondo nueve de los MLGs más avanzados disponibles hoy en día. Es notable que los modelos de la serie o1 de OpenAI no lograron resultados líderes en estas evaluaciones. Proponemos varias hipótesis para investigaciones futuras, como "el razonamiento latente de o1 utiliza técnicas triviales de Cadena de Pensamiento (CoT)" y "aumentar la longitud de CoT no solo proporciona beneficios de razonamiento, sino que también conlleva costos de ruido".
English
As the application of Large Language Models (LLMs) expands, the demand for
reliable evaluations increases. Existing LLM evaluation benchmarks primarily
rely on static datasets, making it challenging to assess model performance in
dynamic interactions with users. Moreover, these benchmarks often depend on
specific background knowledge, complicating the measurement of a model's
logical reasoning capabilities. Other dynamic evaluation methods based on
strong models or manual efforts may introduce biases and incur high costs and
time demands, hindering large-scale application. To address these issues, we
propose TurtleBench. TurtleBench collects real user guesses from our online
Turtle Soup Puzzle platform that we developed. This approach allows for the
relatively dynamic generation of evaluation datasets, mitigating the risk of
model cheating while aligning assessments more closely with genuine user needs
for reasoning capabilities, thus enhancing the reliability of evaluations.
TurtleBench includes 1,532 user guesses along with the correctness of guesses
after annotation. Using this dataset, we thoroughly evaluated nine of the most
advanced LLMs available today. Notably, the OpenAI o1 series models did not
achieve leading results in these evaluations. We propose several hypotheses for
further research, such as "the latent reasoning of o1 utilizes trivial
Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides
reasoning benefits but also incurs noise costs."Summary
AI-Generated Summary