ChatPaper.aiChatPaper

Фундаментальные авторейтеры: Укрощение больших языковых моделей для улучшения Автоматической оценки

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

July 15, 2024
Авторы: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI

Аннотация

По мере развития крупных языковых моделей (LLM) становится все сложнее надежно оценивать их результаты из-за высоких затрат на человеческую оценку. Для продвижения в направлении более точных авторейтингов LLM мы представляем FLAMe, семейство Фундаментальных Больших Моделей Авторейтинга. FLAMe обучается на нашей обширной и разнообразной коллекции из 100+ задач оценки качества, включающей более 5 миллионов человеческих оценок, отобранных и стандартизированных с использованием публично доступных человеческих оценок из предыдущих исследований. FLAMe значительно улучшает обобщение на широкий спектр задач, не входящих в обучающий набор, превосходя LLM, обученные на собственных данных, такие как GPT-4 и Claude-3, во многих задачах. Мы показываем, что FLAMe также может служить мощным отправным пунктом для дальнейшей настройки, используя оценку модели вознаграждения как кейс-стади (FLAMe-RM). Значительно, на RewardBench наша модель FLAMe-RM-24B (с точностью 87.8%) является лучшей генеративной моделью, обученной исключительно на данных с разрешением на использование, превосходя как GPT-4-0125 (85.9%), так и GPT-4o (84.7%). Кроме того, мы исследуем более эффективный подход с использованием новой стратегии тонкой настройки хвостового участка для оптимизации нашего мультитаскового смешивания FLAMe для оценки моделирования вознаграждения (FLAMe-Opt-RM), предлагая конкурентоспособную производительность на RewardBench, требуя при этом примерно в 25 раз меньше обучающих точек данных. В целом, наши варианты FLAMe превосходят все популярные собственные модели LLM-как-судьи, которые мы рассматриваем, в 8 из 12 бенчмарков оценки авторейтинга, охватывающих 53 задачи оценки качества, включая RewardBench и LLM-AggreFact. Наконец, наш анализ показывает, что FLAMe значительно менее предвзят, чем эти модели LLM-как-судьи на бенчмарке предвзятости авторейтинга CoBBLEr, эффективно идентифицируя высококачественные ответы для генерации кода.
English
As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.

Summary

AI-Generated Summary

PDF158November 28, 2024