De datos obtenidos mediante crowdsourcing a benchmarks de alta calidad: Arena-Hard y el pipeline BenchBuilder
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
June 17, 2024
Autores: Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumen
La rápida evolución de los modelos de lenguaje ha hecho necesario el desarrollo de puntos de referencia más desafiantes. Los puntos de referencia estáticos actuales a menudo tienen dificultades para distinguir de manera consistente las capacidades de diferentes modelos y no logran alinearse con las preferencias de los usuarios en el mundo real. Por otro lado, plataformas colaborativas en vivo como Chatbot Arena recopilan una amplia gama de indicaciones naturales y comentarios de los usuarios. Sin embargo, estas indicaciones varían en sofisticación y los comentarios no pueden aplicarse fuera de línea a nuevos modelos. Para garantizar que los puntos de referencia sigan el ritmo del desarrollo de los modelos de lenguaje (LLM), abordamos cómo se pueden evaluar los puntos de referencia en función de su capacidad para separar modelos de manera confiable y su alineación con las preferencias humanas. Bajo estos principios, desarrollamos BenchBuilder, un punto de referencia dinámico que filtra indicaciones de alta calidad de fuentes de datos en vivo para permitir la evaluación fuera de línea con indicaciones frescas y desafiantes. BenchBuilder identifica siete indicadores de una indicación de alta calidad, como la necesidad de conocimiento de dominio, y utiliza un anotador basado en un LLM para seleccionar un subconjunto de indicaciones de alta calidad de varios grupos temáticos. El proceso de evaluación con LLM emplea un juez basado en un LLM para garantizar un punto de referencia completamente automatizado, de alta calidad y en constante actualización. Aplicamos BenchBuilder en indicaciones de Chatbot Arena para crear Arena-Hard-Auto v0.1: 500 indicaciones desafiantes de usuarios en una amplia gama de tareas. Arena-Hard-Auto v0.1 ofrece intervalos de confianza 3 veces más estrechos que MT-Bench y logra un acuerdo del 89.1% con las clasificaciones de preferencia humana, todo a un costo de solo $25 y sin la necesidad de etiquetadores humanos. La canalización de BenchBuilder mejora los puntos de referencia de evaluación y proporciona una herramienta valiosa para los desarrolladores, permitiéndoles extraer puntos de referencia de alta calidad de grandes volúmenes de datos con un esfuerzo mínimo.
English
The rapid evolution of language models has necessitated the development of
more challenging benchmarks. Current static benchmarks often struggle to
consistently distinguish between the capabilities of different models and fail
to align with real-world user preferences. On the other hand, live
crowd-sourced platforms like the Chatbot Arena collect a wide range of natural
prompts and user feedback. However, these prompts vary in sophistication and
the feedback cannot be applied offline to new models. In order to ensure that
benchmarks keep up with the pace of LLM development, we address how one can
evaluate benchmarks on their ability to confidently separate models and their
alignment with human preference. Under these principles, we developed
BenchBuilder, a living benchmark that filters high-quality prompts from live
data sources to enable offline evaluation on fresh, challenging prompts.
BenchBuilder identifies seven indicators of a high-quality prompt, such as the
requirement for domain knowledge, and utilizes an LLM annotator to select a
high-quality subset of prompts from various topic clusters. The LLM evaluation
process employs an LLM judge to ensure a fully automated, high-quality, and
constantly updating benchmark. We apply BenchBuilder on prompts from the
Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenging user prompts from
a wide range of tasks. Arena-Hard-Auto v0.1 offers 3x tighter confidence
intervals than MT-Bench and achieves a state-of-the-art 89.1% agreement with
human preference rankings, all at a cost of only $25 and without human
labelers. The BenchBuilder pipeline enhances evaluation benchmarks and provides
a valuable tool for developers, enabling them to extract high-quality
benchmarks from extensive data with minimal effort.Summary
AI-Generated Summary