ChatPaper.aiChatPaper

Mini-GPTs: Effiziente große Sprachmodelle durch kontextbezogenes Pruning

Mini-GPTs: Efficient Large Language Models through Contextual Pruning

December 20, 2023
Autoren: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI

Zusammenfassung

In der KI-Forschung bleibt die Optimierung von Large Language Models (LLMs) eine bedeutende Herausforderung, die entscheidend für die Weiterentwicklung praktischer Anwendungen und die Nachhaltigkeit des Feldes ist. Aufbauend auf den grundlegenden Arbeiten des Labors von Professor Song Han am MIT stellt dieses Papier einen neuartigen Ansatz zur Entwicklung von Mini-GPTs durch kontextbezogenes Pruning vor. Unsere Methodik beschneidet strategisch die Rechenarchitektur traditioneller LLMs wie Phi-1.5, wobei der Fokus darauf liegt, Kernfunktionen beizubehalten und gleichzeitig die Modellgrößen drastisch zu reduzieren. Wir wenden diese Technik auf vielfältige und komplexe Datensätze an, darunter US-Recht, medizinische Fragen und Antworten, Skyrim-Dialoge, Englisch-Taiwanesische Übersetzungen und Wirtschaftsartikel. Die Ergebnisse unterstreichen die Effizienz und Wirksamkeit des kontextbezogenen Prunings, nicht nur als theoretisches Konzept, sondern auch als praktisches Werkzeug zur Entwicklung domänenspezifischer, ressourceneffizienter LLMs. Kontextbezogenes Pruning ist eine vielversprechende Methode zur Erstellung domänenspezifischer LLMs, und diese Forschung ist ein Baustein für zukünftige Entwicklungen mit mehr Hardware-Rechenleistung, verfeinertem Fine-Tuning und Quantisierung.
English
In AI research, the optimization of Large Language Models (LLMs) remains a significant challenge, crucial for advancing the field's practical applications and sustainability. Building upon the foundational work of Professor Song Han's lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via contextual pruning. Our methodology strategically prunes the computational architecture of traditional LLMs, like Phi-1.5, focusing on retaining core functionalities while drastically reducing model sizes. We employ the technique across diverse and complex datasets, including US law, Medical Q&A, Skyrim dialogue, English-Taiwanese translation, and Economics articles. The results underscore the efficiency and effectiveness of contextual pruning, not merely as a theoretical concept but as a practical tool in developing domain-specific, resource-efficient LLMs. Contextual pruning is a promising method for building domain-specific LLMs, and this research is a building block towards future development with more hardware compute, refined fine-tuning, and quantization.
PDF100December 15, 2024