Mini-GPT's: Efficiënte Taalmodellen op Schaal door Contextueel Snoeien
Mini-GPTs: Efficient Large Language Models through Contextual Pruning
December 20, 2023
Auteurs: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI
Samenvatting
In AI-onderzoek blijft de optimalisatie van Large Language Models (LLM's) een
aanzienlijke uitdaging, cruciaal voor het bevorderen van praktische toepassingen
en duurzaamheid in het veld. Voortbouwend op het baanbrekende werk van het lab
van Professor Song Han aan het MIT, introduceert dit artikel een nieuwe aanpak
voor het ontwikkelen van Mini-GPT's via contextueel snoeien. Onze methodologie
snoeit op strategische wijze de computationele architectuur van traditionele
LLM's, zoals Phi-1.5, met de focus op het behouden van kernfunctionaliteiten
terwijl de modelgroottes drastisch worden verkleind. We passen de techniek toe
op diverse en complexe datasets, waaronder Amerikaans recht, medische vraag en
antwoord, Skyrim-dialogen, Engels-Taiwanees vertaling en economische artikelen.
De resultaten benadrukken de efficiëntie en effectiviteit van contextueel snoeien,
niet slechts als een theoretisch concept maar als een praktisch hulpmiddel bij
het ontwikkelen van domeinspecifieke, resource-efficiënte LLM's. Contextueel
snoeien is een veelbelovende methode voor het bouwen van domeinspecifieke LLM's,
en dit onderzoek vormt een bouwsteen voor toekomstige ontwikkelingen met meer
hardware-rekenkracht, verfijnde fine-tuning en kwantisering.
English
In AI research, the optimization of Large Language Models (LLMs) remains a
significant challenge, crucial for advancing the field's practical applications
and sustainability. Building upon the foundational work of Professor Song Han's
lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via
contextual pruning. Our methodology strategically prunes the computational
architecture of traditional LLMs, like Phi-1.5, focusing on retaining core
functionalities while drastically reducing model sizes. We employ the technique
across diverse and complex datasets, including US law, Medical Q&A, Skyrim
dialogue, English-Taiwanese translation, and Economics articles. The results
underscore the efficiency and effectiveness of contextual pruning, not merely
as a theoretical concept but as a practical tool in developing domain-specific,
resource-efficient LLMs. Contextual pruning is a promising method for building
domain-specific LLMs, and this research is a building block towards future
development with more hardware compute, refined fine-tuning, and quantization.