AdaptiVocab: Miglioramento dell'efficienza dei LLM in domini specifici attraverso l'adattamento leggero del vocabolarioAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un'impressionante versatilità come modelli generici. Tuttavia, la loro ampia applicabilità comporta un elevato sovraccarico computazionale, in particolare nel decoding auto-regressivo, dove ogni passaggio richiede un forward pass. In contesti specifici per dominio, le capacità generali non sono necessarie e possono essere scambiate per efficienza. In questo lavoro, adottiamo una prospettiva innovativa sull'adattamento di dominio, riducendo la latenza e i costi computazionali adattando il vocabolario a domini di interesse specifici. Introduciamo AdaptiVocab, un approccio end-to-end per l'adattamento del vocabolario, progettato per migliorare l'efficienza degli LLM in domini a basso contenuto di risorse. AdaptiVocab può essere applicato a qualsiasi tokenizer e architettura, modificando il vocabolario sostituendo i token con token basati su n-grammi specifici per dominio, riducendo così il numero di token necessari sia per l'elaborazione dell'input che per la generazione dell'output. AdaptiVocab inizializza i nuovi embedding di n-token utilizzando una combinazione ponderata esponenzialmente degli embedding esistenti e impiega una fase di fine-tuning leggera che può essere eseguita in modo efficiente su una singola GPU. Valutiamo due LLM da 7B in tre domini di nicchia, valutando l'efficienza, la qualità della generazione e le prestazioni nelle attività finali. I nostri risultati mostrano che AdaptiVocab riduce l'uso dei token di oltre il 25% senza compromettere le prestazioni.