ChatPaper.aiChatPaper

Sorted LLaMA: Desbloqueando el Potencial de las Capas Intermedias de Modelos de Lenguaje de Gran Escala para Inferencia Dinámica mediante Ajuste Fino Ordenado (SoFT)

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)

September 16, 2023
Autores: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI

Resumen

El rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha revolucionado el procesamiento del lenguaje natural (NLP). Si bien estos modelos sobresalen en la comprensión y generación de texto similar al humano, su implementación generalizada puede resultar prohibitivamente costosa. SortedNet es una técnica de entrenamiento reciente que permite la inferencia dinámica en redes neuronales profundas. Aprovecha la modularidad de la red para crear submodelos con cargas computacionales variables, organizándolos de manera anidada según sus características de computación/precisión. Extendemos SortedNet a tareas generativas de NLP, haciendo que los modelos de lenguaje de gran escala sean dinámicos sin necesidad de preentrenamiento y simplemente reemplazando el ajuste fino supervisado estándar (SFT) con el ajuste fino ordenado (SoFT) a los mismos costos. Nuestro enfoque mejora la eficiencia del modelo, eliminando la necesidad de múltiples modelos para diversos escenarios durante la inferencia. Demostramos que, utilizando este enfoque, podemos desbloquear el potencial de las capas intermedias de los transformadores para generar la salida objetivo. Nuestros submodelos siguen siendo componentes integrales del modelo original, minimizando los requisitos de almacenamiento y los costos de transición entre diferentes presupuestos de computación/latencia. Al aplicar este enfoque en LLaMa 2 13B para ajustarlo en el conjunto de datos Stanford Alpaca y compararlo con el ajuste normal y la salida temprana mediante el benchmark PandaLM, mostramos que el ajuste fino ordenado puede ofrecer modelos dos veces más rápidos que el modelo original mientras mantiene o supera su rendimiento.
English
The rapid advancement of large language models (LLMs) has revolutionized natural language processing (NLP). While these models excel at understanding and generating human-like text, their widespread deployment can be prohibitively expensive. SortedNet is a recent training technique for enabling dynamic inference for deep neural networks. It leverages network modularity to create sub-models with varying computational loads, sorting them based on computation/accuracy characteristics in a nested manner. We extend SortedNet to generative NLP tasks, making large language models dynamic without any pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model efficiency, eliminating the need for multiple models for various scenarios during inference. We show that using this approach, we are able to unlock the potential of intermediate layers of transformers in generating the target output. Our sub-models remain integral components of the original model, minimizing storage requirements and transition costs between different computational/latency budgets. By applying this approach on LLaMa 2 13B for tuning on the Stanford Alpaca dataset and comparing it to normal tuning and early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver models twice as fast as the original model while maintaining or exceeding performance.
PDF231December 15, 2024