Mini-GPTs: Effiziente große Sprachmodelle durch kontextbezogenes Pruning
Mini-GPTs: Efficient Large Language Models through Contextual Pruning
December 20, 2023
Autoren: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI
Zusammenfassung
In der KI-Forschung bleibt die Optimierung von Large Language Models (LLMs) eine bedeutende Herausforderung, die entscheidend für die Weiterentwicklung praktischer Anwendungen und die Nachhaltigkeit des Feldes ist. Aufbauend auf den grundlegenden Arbeiten des Labors von Professor Song Han am MIT stellt dieses Papier einen neuartigen Ansatz zur Entwicklung von Mini-GPTs durch kontextbezogenes Pruning vor. Unsere Methodik beschneidet strategisch die Rechenarchitektur traditioneller LLMs wie Phi-1.5, wobei der Fokus darauf liegt, Kernfunktionen beizubehalten und gleichzeitig die Modellgrößen drastisch zu reduzieren. Wir wenden diese Technik auf vielfältige und komplexe Datensätze an, darunter US-Recht, medizinische Fragen und Antworten, Skyrim-Dialoge, Englisch-Taiwanesische Übersetzungen und Wirtschaftsartikel. Die Ergebnisse unterstreichen die Effizienz und Wirksamkeit des kontextbezogenen Prunings, nicht nur als theoretisches Konzept, sondern auch als praktisches Werkzeug zur Entwicklung domänenspezifischer, ressourceneffizienter LLMs. Kontextbezogenes Pruning ist eine vielversprechende Methode zur Erstellung domänenspezifischer LLMs, und diese Forschung ist ein Baustein für zukünftige Entwicklungen mit mehr Hardware-Rechenleistung, verfeinertem Fine-Tuning und Quantisierung.
English
In AI research, the optimization of Large Language Models (LLMs) remains a
significant challenge, crucial for advancing the field's practical applications
and sustainability. Building upon the foundational work of Professor Song Han's
lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via
contextual pruning. Our methodology strategically prunes the computational
architecture of traditional LLMs, like Phi-1.5, focusing on retaining core
functionalities while drastically reducing model sizes. We employ the technique
across diverse and complex datasets, including US law, Medical Q&A, Skyrim
dialogue, English-Taiwanese translation, and Economics articles. The results
underscore the efficiency and effectiveness of contextual pruning, not merely
as a theoretical concept but as a practical tool in developing domain-specific,
resource-efficient LLMs. Contextual pruning is a promising method for building
domain-specific LLMs, and this research is a building block towards future
development with more hardware compute, refined fine-tuning, and quantization.