Autorrevisores Fundamentales: Domando Modelos de Lenguaje Grandes para una Mejor Evaluación Automática
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
July 15, 2024
Autores: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI
Resumen
A medida que avanzan los modelos de lenguaje grandes (LLMs), se vuelve más desafiante evaluar de manera confiable su producción debido a los altos costos de la evaluación humana. Para avanzar hacia mejores autorrevisores de LLM, presentamos FLAMe, una familia de Modelos Autorrevisores Grandes Fundamentales. FLAMe se entrena en nuestra amplia y diversa colección de más de 100 tareas de evaluación de calidad que comprenden más de 5 millones de juicios humanos, curados y estandarizados utilizando evaluaciones humanas públicamente liberadas de investigaciones previas. FLAMe mejora significativamente la generalización a una amplia variedad de tareas excluidas, superando a los LLMs entrenados en datos propietarios como GPT-4 y Claude-3 en muchas tareas. Mostramos que FLAMe también puede servir como un punto de partida poderoso para un ajuste fino adicional aguas abajo, utilizando la evaluación de modelado de recompensa como un estudio de caso (FLAMe-RM). Notablemente, en RewardBench, nuestro modelo FLAMe-RM-24B (con una precisión del 87.8%) es el modelo generativo con mejor rendimiento entrenado exclusivamente en datos con licencia permisiva, superando tanto a GPT-4-0125 (85.9%) como a GPT-4o (84.7%). Además, exploramos un enfoque más eficiente computacionalmente utilizando una estrategia novedosa de ajuste fino de parche de cola para optimizar nuestra mezcla multitarea de FLAMe para la evaluación de modelado de recompensa (FLAMe-Opt-RM), ofreciendo un rendimiento competitivo en RewardBench mientras requiere aproximadamente 25 veces menos puntos de datos de entrenamiento. En general, nuestras variantes de FLAMe superan a todos los populares modelos LLM-como-Juez propietarios que consideramos en 8 de 12 bancos de pruebas de evaluación de autorrevisores, abarcando 53 tareas de evaluación de calidad, incluidos RewardBench y LLM-AggreFact. Finalmente, nuestro análisis revela que FLAMe es significativamente menos sesgado que estos modelos LLM-como-Juez en el banco de pruebas de sesgo de autorrevisor CoBBLEr, mientras identifica de manera efectiva respuestas de alta calidad para la generación de código.
English
As large language models (LLMs) advance, it becomes more challenging to
reliably evaluate their output due to the high costs of human evaluation. To
make progress towards better LLM autoraters, we introduce FLAMe, a family of
Foundational Large Autorater Models. FLAMe is trained on our large and diverse
collection of 100+ quality assessment tasks comprising 5M+ human judgments,
curated and standardized using publicly released human evaluations from
previous research. FLAMe significantly improves generalization to a wide
variety of held-out tasks, outperforming LLMs trained on proprietary data like
GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a
powerful starting point for further downstream fine-tuning, using reward
modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our
FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative
model trained exclusively on permissively licensed data, outperforming both
GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more
computationally efficient approach using a novel tail-patch fine-tuning
strategy to optimize our FLAMe multitask mixture for reward modeling evaluation
(FLAMe-Opt-RM), offering competitive RewardBench performance while requiring
approximately 25x less training datapoints. Overall, our FLAMe variants
outperform all popular proprietary LLM-as-a-Judge models we consider across 8
out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment
tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals
that FLAMe is significantly less biased than these LLM-as-a-Judge models on the
CoBBLEr autorater bias benchmark, while effectively identifying high-quality
responses for code generation.Summary
AI-Generated Summary