Мини-GPT: Эффективные крупные языковые модели через контекстуальное прореживание
Mini-GPTs: Efficient Large Language Models through Contextual Pruning
December 20, 2023
Авторы: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI
Аннотация
В исследованиях искусственного интеллекта оптимизация крупных языковых моделей (LLM) остается важной задачей, критически значимой для продвижения практических приложений и устойчивого развития области. Опираясь на фундаментальные работы лаборатории профессора Сон Хана в MIT, данная статья представляет новый подход к разработке мини-GPT с использованием контекстного прореживания. Наша методология стратегически сокращает вычислительную архитектуру традиционных LLM, таких как Phi-1.5, сохраняя ключевые функциональные возможности при значительном уменьшении размеров моделей. Мы применяем эту технику к разнообразным и сложным наборам данных, включая законодательство США, медицинские вопросы и ответы, диалоги из Skyrim, переводы с английского на тайваньский и статьи по экономике. Результаты подчеркивают эффективность контекстного прореживания не только как теоретической концепции, но и как практического инструмента для создания ресурсоэффективных LLM, ориентированных на конкретные области. Контекстное прореживание является перспективным методом для построения специализированных LLM, и данное исследование служит основой для будущего развития с использованием более мощных вычислительных ресурсов, улучшенной тонкой настройки и квантования.
English
In AI research, the optimization of Large Language Models (LLMs) remains a
significant challenge, crucial for advancing the field's practical applications
and sustainability. Building upon the foundational work of Professor Song Han's
lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via
contextual pruning. Our methodology strategically prunes the computational
architecture of traditional LLMs, like Phi-1.5, focusing on retaining core
functionalities while drastically reducing model sizes. We employ the technique
across diverse and complex datasets, including US law, Medical Q&A, Skyrim
dialogue, English-Taiwanese translation, and Economics articles. The results
underscore the efficiency and effectiveness of contextual pruning, not merely
as a theoretical concept but as a practical tool in developing domain-specific,
resource-efficient LLMs. Contextual pruning is a promising method for building
domain-specific LLMs, and this research is a building block towards future
development with more hardware compute, refined fine-tuning, and quantization.