Mini-GPT: Modelli Linguistici di Grande Dimensione Efficienti attraverso il Pruning Contestuale
Mini-GPTs: Efficient Large Language Models through Contextual Pruning
December 20, 2023
Autori: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI
Abstract
Nella ricerca sull'IA, l'ottimizzazione dei Large Language Models (LLM) rimane una sfida significativa, cruciale per avanzare nelle applicazioni pratiche e nella sostenibilità del campo. Basandosi sul lavoro fondamentale del laboratorio del Professor Song Han al MIT, questo articolo introduce un approccio innovativo nello sviluppo di Mini-GPT attraverso il pruning contestuale. La nostra metodologia pota strategicamente l'architettura computazionale dei tradizionali LLM, come Phi-1.5, concentrandosi sul mantenimento delle funzionalità principali riducendo drasticamente le dimensioni del modello. Applichiamo la tecnica su dataset diversificati e complessi, tra cui leggi statunitensi, domande e risposte mediche, dialoghi di Skyrim, traduzioni inglese-taiwanese e articoli di economia. I risultati evidenziano l'efficienza e l'efficacia del pruning contestuale, non solo come concetto teorico ma come strumento pratico nello sviluppo di LLM specifici per dominio e efficienti in termini di risorse. Il pruning contestuale è un metodo promettente per costruire LLM specifici per dominio, e questa ricerca rappresenta un mattone fondamentale per futuri sviluppi con maggiore potenza di calcolo hardware, affinamento del fine-tuning e quantizzazione.
English
In AI research, the optimization of Large Language Models (LLMs) remains a
significant challenge, crucial for advancing the field's practical applications
and sustainability. Building upon the foundational work of Professor Song Han's
lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via
contextual pruning. Our methodology strategically prunes the computational
architecture of traditional LLMs, like Phi-1.5, focusing on retaining core
functionalities while drastically reducing model sizes. We employ the technique
across diverse and complex datasets, including US law, Medical Q&A, Skyrim
dialogue, English-Taiwanese translation, and Economics articles. The results
underscore the efficiency and effectiveness of contextual pruning, not merely
as a theoretical concept but as a practical tool in developing domain-specific,
resource-efficient LLMs. Contextual pruning is a promising method for building
domain-specific LLMs, and this research is a building block towards future
development with more hardware compute, refined fine-tuning, and quantization.