ChatPaper.aiChatPaper

Paloma: Бенчмарк для оценки соответствия языковых моделей

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
Авторы: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

Аннотация

Языковые модели (ЯМ) обычно сообщают о перплексии на монолитных данных, исключенных из обучения. Неявно или явно эти данные состоят из доменов — различных распределений языка. Вместо предположения, что перплексия на одном распределении экстраполируется на другие, метод анализа перплексии для оценки языковых моделей (Paloma) измеряет соответствие ЯМ 585 текстовым доменам, начиная от nytimes.com и заканчивая r/depression на Reddit. Мы приглашаем отправлять результаты на наш бенчмарк и организуем их по сравнимости на основе соблюдения рекомендаций, таких как удаление загрязнения бенчмарка из предварительного обучения. Отправки также могут включать количество параметров и токенов обучения, чтобы проводить сравнения Парето-эффективности для производительности как функции этих показателей затрат. Мы заполняем наш бенчмарк результатами 6 базовых моделей, предварительно обученных на популярных корпусах. В кейс-стадиях мы демонстрируем анализы, возможные с использованием Paloma, например, показывая, что предварительное обучение без данных, выходящих за пределы Common Crawl, приводит к нестабильному соответствию многим доменам.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132December 15, 2024