Mini-GPT: Modelli Linguistici di Grande Dimensione Efficienti attraverso il Pruning Contestuale

Abstract

Nella ricerca sull'IA, l'ottimizzazione dei Large Language Models (LLM) rimane una sfida significativa, cruciale per avanzare nelle applicazioni pratiche e nella sostenibilità del campo. Basandosi sul lavoro fondamentale del laboratorio del Professor Song Han al MIT, questo articolo introduce un approccio innovativo nello sviluppo di Mini-GPT attraverso il pruning contestuale. La nostra metodologia pota strategicamente l'architettura computazionale dei tradizionali LLM, come Phi-1.5, concentrandosi sul mantenimento delle funzionalità principali riducendo drasticamente le dimensioni del modello. Applichiamo la tecnica su dataset diversificati e complessi, tra cui leggi statunitensi, domande e risposte mediche, dialoghi di Skyrim, traduzioni inglese-taiwanese e articoli di economia. I risultati evidenziano l'efficienza e l'efficacia del pruning contestuale, non solo come concetto teorico ma come strumento pratico nello sviluppo di LLM specifici per dominio e efficienti in termini di risorse. Il pruning contestuale è un metodo promettente per costruire LLM specifici per dominio, e questa ricerca rappresenta un mattone fondamentale per futuri sviluppi con maggiore potenza di calcolo hardware, affinamento del fine-tuning e quantizzazione.

English

In AI research, the optimization of Large Language Models (LLMs) remains a significant challenge, crucial for advancing the field's practical applications and sustainability. Building upon the foundational work of Professor Song Han's lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via contextual pruning. Our methodology strategically prunes the computational architecture of traditional LLMs, like Phi-1.5, focusing on retaining core functionalities while drastically reducing model sizes. We employ the technique across diverse and complex datasets, including US law, Medical Q&A, Skyrim dialogue, English-Taiwanese translation, and Economics articles. The results underscore the efficiency and effectiveness of contextual pruning, not merely as a theoretical concept but as a practical tool in developing domain-specific, resource-efficient LLMs. Contextual pruning is a promising method for building domain-specific LLMs, and this research is a building block towards future development with more hardware compute, refined fine-tuning, and quantization.

Mini-GPT: Modelli Linguistici di Grande Dimensione Efficienti attraverso il Pruning Contestuale

Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Abstract

Support