De datos obtenidos mediante crowdsourcing a benchmarks de alta calidad: Arena-Hard y el pipeline BenchBuilder

Resumen

La rápida evolución de los modelos de lenguaje ha hecho necesario el desarrollo de puntos de referencia más desafiantes. Los puntos de referencia estáticos actuales a menudo tienen dificultades para distinguir de manera consistente las capacidades de diferentes modelos y no logran alinearse con las preferencias de los usuarios en el mundo real. Por otro lado, plataformas colaborativas en vivo como Chatbot Arena recopilan una amplia gama de indicaciones naturales y comentarios de los usuarios. Sin embargo, estas indicaciones varían en sofisticación y los comentarios no pueden aplicarse fuera de línea a nuevos modelos. Para garantizar que los puntos de referencia sigan el ritmo del desarrollo de los modelos de lenguaje (LLM), abordamos cómo se pueden evaluar los puntos de referencia en función de su capacidad para separar modelos de manera confiable y su alineación con las preferencias humanas. Bajo estos principios, desarrollamos BenchBuilder, un punto de referencia dinámico que filtra indicaciones de alta calidad de fuentes de datos en vivo para permitir la evaluación fuera de línea con indicaciones frescas y desafiantes. BenchBuilder identifica siete indicadores de una indicación de alta calidad, como la necesidad de conocimiento de dominio, y utiliza un anotador basado en un LLM para seleccionar un subconjunto de indicaciones de alta calidad de varios grupos temáticos. El proceso de evaluación con LLM emplea un juez basado en un LLM para garantizar un punto de referencia completamente automatizado, de alta calidad y en constante actualización. Aplicamos BenchBuilder en indicaciones de Chatbot Arena para crear Arena-Hard-Auto v0.1: 500 indicaciones desafiantes de usuarios en una amplia gama de tareas. Arena-Hard-Auto v0.1 ofrece intervalos de confianza 3 veces más estrechos que MT-Bench y logra un acuerdo del 89.1% con las clasificaciones de preferencia humana, todo a un costo de solo $25 y sin la necesidad de etiquetadores humanos. La canalización de BenchBuilder mejora los puntos de referencia de evaluación y proporciona una herramienta valiosa para los desarrolladores, permitiéndoles extraer puntos de referencia de alta calidad de grandes volúmenes de datos con un esfuerzo mínimo.

English

The rapid evolution of language models has necessitated the development of more challenging benchmarks. Current static benchmarks often struggle to consistently distinguish between the capabilities of different models and fail to align with real-world user preferences. On the other hand, live crowd-sourced platforms like the Chatbot Arena collect a wide range of natural prompts and user feedback. However, these prompts vary in sophistication and the feedback cannot be applied offline to new models. In order to ensure that benchmarks keep up with the pace of LLM development, we address how one can evaluate benchmarks on their ability to confidently separate models and their alignment with human preference. Under these principles, we developed BenchBuilder, a living benchmark that filters high-quality prompts from live data sources to enable offline evaluation on fresh, challenging prompts. BenchBuilder identifies seven indicators of a high-quality prompt, such as the requirement for domain knowledge, and utilizes an LLM annotator to select a high-quality subset of prompts from various topic clusters. The LLM evaluation process employs an LLM judge to ensure a fully automated, high-quality, and constantly updating benchmark. We apply BenchBuilder on prompts from the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenging user prompts from a wide range of tasks. Arena-Hard-Auto v0.1 offers 3x tighter confidence intervals than MT-Bench and achieves a state-of-the-art 89.1% agreement with human preference rankings, all at a cost of only $25 and without human labelers. The BenchBuilder pipeline enhances evaluation benchmarks and provides a valuable tool for developers, enabling them to extract high-quality benchmarks from extensive data with minimal effort.

De datos obtenidos mediante crowdsourcing a benchmarks de alta calidad: Arena-Hard y el pipeline BenchBuilder

From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

Resumen

Support