ChatPaper.aiChatPaper

Sorted LLaMA: Desbloqueando o Potencial das Camadas Intermediárias de Modelos de Linguagem de Grande Porte para Inferência Dinâmica Usando Ajuste Fino Ordenado (SoFT)

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)

September 16, 2023
Autores: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI

Resumo

O rápido avanço dos grandes modelos de linguagem (LLMs) revolucionou o processamento de linguagem natural (PLN). Embora esses modelos se destaquem na compreensão e geração de texto semelhante ao humano, sua implantação em larga escala pode ser proibitivamente cara. O SortedNet é uma técnica recente de treinamento que permite inferência dinâmica em redes neurais profundas. Ele aproveita a modularidade da rede para criar submodelos com cargas computacionais variadas, organizando-os de forma aninhada com base em características de computação/precisão. Estendemos o SortedNet para tarefas generativas de PLN, tornando os grandes modelos de linguagem dinâmicos sem qualquer pré-treinamento e apenas substituindo o Ajuste Fino Supervisionado (SFT) padrão pelo Ajuste Fino Ordenado (SoFT) com os mesmos custos. Nossa abordagem aumenta a eficiência do modelo, eliminando a necessidade de múltiplos modelos para diversos cenários durante a inferência. Mostramos que, ao usar essa abordagem, conseguimos desbloquear o potencial das camadas intermediárias dos transformadores na geração da saída desejada. Nossos submodelos permanecem componentes integrais do modelo original, minimizando os requisitos de armazenamento e os custos de transição entre diferentes orçamentos de computação/latência. Ao aplicar essa abordagem no LLaMa 2 13B para ajuste fino no conjunto de dados Stanford Alpaca e compará-lo ao ajuste fino normal e à saída antecipada via benchmark PandaLM, mostramos que o Ajuste Fino Ordenado pode entregar modelos duas vezes mais rápidos que o modelo original, mantendo ou superando o desempenho.
English
The rapid advancement of large language models (LLMs) has revolutionized natural language processing (NLP). While these models excel at understanding and generating human-like text, their widespread deployment can be prohibitively expensive. SortedNet is a recent training technique for enabling dynamic inference for deep neural networks. It leverages network modularity to create sub-models with varying computational loads, sorting them based on computation/accuracy characteristics in a nested manner. We extend SortedNet to generative NLP tasks, making large language models dynamic without any pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model efficiency, eliminating the need for multiple models for various scenarios during inference. We show that using this approach, we are able to unlock the potential of intermediate layers of transformers in generating the target output. Our sub-models remain integral components of the original model, minimizing storage requirements and transition costs between different computational/latency budgets. By applying this approach on LLaMa 2 13B for tuning on the Stanford Alpaca dataset and comparing it to normal tuning and early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver models twice as fast as the original model while maintaining or exceeding performance.
PDF231February 8, 2026