ChatPaper.aiChatPaper

Оценка возможностей крупных языковых моделей для условной генерации

Benchmarking Large Language Model Capabilities for Conditional Generation

June 29, 2023
Авторы: Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann
cs.AI

Аннотация

Предварительно обученные большие языковые модели (PLM) лежат в основе большинства новых разработок в области обработки естественного языка. Они сместили фокус области с прикладных конвейеров моделей на единую модель, которая адаптируется к широкому спектру задач. Авторегрессивные PLM, такие как GPT-3 или PaLM, наряду с техниками, такими как обучение с малым количеством примеров (few-shot learning), также изменили выходную модальность на генерацию вместо классификации или регрессии. Несмотря на их повсеместное использование, качество генерации языковых моделей редко оценивается при их представлении. Кроме того, неясно, как существующие задачи генерации — хотя они могут использоваться для сравнения систем на высоком уровне — соотносятся с реальными сценариями использования, для которых люди их применяют. В данной работе мы обсуждаем, как адаптировать существующие прикладные бенчмарки генерации к PLM, и предоставляем углубленное эмпирическое исследование ограничений и возможностей PLM в задачах генерации естественного языка по таким параметрам, как масштаб, архитектура, входной и выходной язык. Наши результаты показывают, что PLM различаются по своей применимости к различным режимам данных и их обобщению на несколько языков, что помогает определить, какие PLM использовать для конкретной настройки задачи генерации. Мы делимся лучшими практиками, которые следует учитывать при тестировании возможностей генерации в процессе разработки новых PLM.
English
Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.
PDF70December 15, 2024