ChatPaper.aiChatPaper

Sorted LLaMA: Раскрытие потенциала промежуточных слоев крупных языковых моделей для динамического вывода с использованием сортированной тонкой настройки (SoFT)

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)

September 16, 2023
Авторы: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI

Аннотация

Быстрое развитие крупных языковых моделей (LLM) произвело революцию в области обработки естественного языка (NLP). Хотя эти модели превосходно справляются с пониманием и генерацией текста, близкого к человеческому, их широкое развертывание может быть чрезмерно дорогостоящим. SortedNet — это недавно разработанная методика обучения, которая позволяет осуществлять динамический вывод для глубоких нейронных сетей. Она использует модульность сети для создания подмоделей с различной вычислительной нагрузкой, сортируя их на основе характеристик вычислений/точности вложенным образом. Мы расширяем SortedNet для генеративных задач NLP, делая крупные языковые модели динамическими без необходимости предварительного обучения, заменяя стандартное контролируемое тонкое настройку (SFT) на Sorted Fine-Tuning (SoFT) при тех же затратах. Наш подход повышает эффективность модели, устраняя необходимость в использовании нескольких моделей для различных сценариев во время вывода. Мы показываем, что с помощью этого подхода можно раскрыть потенциал промежуточных слоев трансформеров в генерации целевого вывода. Наши подмодели остаются неотъемлемыми компонентами исходной модели, минимизируя требования к хранению и затраты на переход между различными вычислительными/латентными бюджетами. Применяя этот подход к модели LLaMa 2 13B для настройки на наборе данных Stanford Alpaca и сравнивая его с обычной настройкой и ранним выходом через бенчмарк PandaLM, мы демонстрируем, что Sorted Fine-Tuning может создавать модели, работающие в два раза быстрее исходной модели, при сохранении или превышении производительности.
English
The rapid advancement of large language models (LLMs) has revolutionized natural language processing (NLP). While these models excel at understanding and generating human-like text, their widespread deployment can be prohibitively expensive. SortedNet is a recent training technique for enabling dynamic inference for deep neural networks. It leverages network modularity to create sub-models with varying computational loads, sorting them based on computation/accuracy characteristics in a nested manner. We extend SortedNet to generative NLP tasks, making large language models dynamic without any pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model efficiency, eliminating the need for multiple models for various scenarios during inference. We show that using this approach, we are able to unlock the potential of intermediate layers of transformers in generating the target output. Our sub-models remain integral components of the original model, minimizing storage requirements and transition costs between different computational/latency budgets. By applying this approach on LLaMa 2 13B for tuning on the Stanford Alpaca dataset and comparing it to normal tuning and early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver models twice as fast as the original model while maintaining or exceeding performance.
PDF231December 15, 2024