ChatPaper.aiChatPaper

INSTRUCTEVAL: К всесторонней оценке крупных языковых моделей, настроенных на выполнение инструкций

INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

June 7, 2023
Авторы: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI

Аннотация

Крупные языковые модели, настроенные на выполнение инструкций, произвели революцию в обработке естественного языка и продемонстрировали огромный потенциал в таких приложениях, как диалоговые системы. Эти модели, такие как GPT-4, способны не только овладевать языком, но и решать сложные задачи в областях математики, программирования, медицины и права. Несмотря на их впечатляющие возможности, до сих пор отсутствует всестороннее понимание их полного потенциала, в основном из-за "черного ящика" многих моделей и отсутствия комплексных исследований их оценки. Для решения этих проблем мы представляем INSTRUCTEVAL — более всеобъемлющий набор тестов, разработанный специально для крупных языковых моделей, настроенных на выполнение инструкций. В отличие от предыдущих работ, наша оценка включает строгий анализ моделей на основе их способности решать задачи, писать тексты и соответствовать человеческим ценностям. Мы применяем комплексный подход для анализа различных факторов, влияющих на производительность моделей, включая основу предварительного обучения, данные для настройки на инструкции и методы обучения. Наши результаты показывают, что качество данных с инструкциями является наиболее важным фактором для масштабирования производительности моделей. Хотя модели с открытым исходным кодом демонстрируют впечатляющие способности в написании текстов, есть значительный потенциал для улучшения в решении задач и согласованности с ценностями. Мы воодушевлены быстрым развитием моделей в сообществе с открытым исходным кодом, но также подчеркиваем необходимость строгой оценки для подтверждения заявлений об этих моделях. С помощью INSTRUCTEVAL мы стремимся способствовать более глубокому пониманию моделей, настроенных на выполнение инструкций, и прогрессу в их возможностях. INSTRUCTEVAL доступен публично по адресу https://github.com/declare-lab/instruct-eval.
English
Instruction-tuned large language models have revolutionized natural language processing and have shown great potential in applications such as conversational agents. These models, such as GPT-4, can not only master language but also solve complex tasks in areas like mathematics, coding, medicine, and law. Despite their impressive capabilities, there is still a lack of comprehensive understanding regarding their full potential, primarily due to the black-box nature of many models and the absence of holistic evaluation studies. To address these challenges, we present INSTRUCTEVAL, a more comprehensive evaluation suite designed specifically for instruction-tuned large language models. Unlike previous works, our evaluation involves a rigorous assessment of models based on problem-solving, writing ability, and alignment to human values. We take a holistic approach to analyze various factors affecting model performance, including the pretraining foundation, instruction-tuning data, and training methods. Our findings reveal that the quality of instruction data is the most crucial factor in scaling model performance. While open-source models demonstrate impressive writing abilities, there is substantial room for improvement in problem-solving and alignment. We are encouraged by the rapid development of models by the open-source community, but we also highlight the need for rigorous evaluation to support claims made about these models. Through INSTRUCTEVAL, we aim to foster a deeper understanding of instruction-tuned models and advancements in their capabilities. INSTRUCTEVAL is publicly available at https://github.com/declare-lab/instruct-eval.
PDF60December 15, 2024