Autorrevisores Fundamentales: Domando Modelos de Lenguaje Grandes para una Mejor Evaluación Automática

Resumen

A medida que avanzan los modelos de lenguaje grandes (LLMs), se vuelve más desafiante evaluar de manera confiable su producción debido a los altos costos de la evaluación humana. Para avanzar hacia mejores autorrevisores de LLM, presentamos FLAMe, una familia de Modelos Autorrevisores Grandes Fundamentales. FLAMe se entrena en nuestra amplia y diversa colección de más de 100 tareas de evaluación de calidad que comprenden más de 5 millones de juicios humanos, curados y estandarizados utilizando evaluaciones humanas públicamente liberadas de investigaciones previas. FLAMe mejora significativamente la generalización a una amplia variedad de tareas excluidas, superando a los LLMs entrenados en datos propietarios como GPT-4 y Claude-3 en muchas tareas. Mostramos que FLAMe también puede servir como un punto de partida poderoso para un ajuste fino adicional aguas abajo, utilizando la evaluación de modelado de recompensa como un estudio de caso (FLAMe-RM). Notablemente, en RewardBench, nuestro modelo FLAMe-RM-24B (con una precisión del 87.8%) es el modelo generativo con mejor rendimiento entrenado exclusivamente en datos con licencia permisiva, superando tanto a GPT-4-0125 (85.9%) como a GPT-4o (84.7%). Además, exploramos un enfoque más eficiente computacionalmente utilizando una estrategia novedosa de ajuste fino de parche de cola para optimizar nuestra mezcla multitarea de FLAMe para la evaluación de modelado de recompensa (FLAMe-Opt-RM), ofreciendo un rendimiento competitivo en RewardBench mientras requiere aproximadamente 25 veces menos puntos de datos de entrenamiento. En general, nuestras variantes de FLAMe superan a todos los populares modelos LLM-como-Juez propietarios que consideramos en 8 de 12 bancos de pruebas de evaluación de autorrevisores, abarcando 53 tareas de evaluación de calidad, incluidos RewardBench y LLM-AggreFact. Finalmente, nuestro análisis revela que FLAMe es significativamente menos sesgado que estos modelos LLM-como-Juez en el banco de pruebas de sesgo de autorrevisor CoBBLEr, mientras identifica de manera efectiva respuestas de alta calidad para la generación de código.

English

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.

Autorrevisores Fundamentales: Domando Modelos de Lenguaje Grandes para una Mejor Evaluación Automática

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Resumen

Support