ChatPaper.aiChatPaper

Leggi di Scalabilità con il Vocabolario: Modelli più Grandi Meritano Vocabolari più Ampi

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

July 18, 2024
Autori: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI

Abstract

La ricerca sul ridimensionamento dei grandi modelli linguistici (LLM) si è concentrata principalmente sui parametri del modello e sulla dimensione dei dati di addestramento, trascurando il ruolo della dimensione del vocabolario. Intuitivamente, vocabolari più ampi consentono una tokenizzazione più efficiente rappresentando le frasi con meno token, ma aumentano anche il rischio di underfitting delle rappresentazioni per i token rari. Investigiamo come la dimensione del vocabolario influenzi le leggi di ridimensionamento degli LLM addestrando modelli che vanno da 33M a 3B di parametri su fino a 500B di caratteri con varie configurazioni di vocabolario. Proponiamo tre approcci complementari per prevedere la dimensione ottimale del vocabolario in termini di calcolo: analisi IsoFLOPs, stima della derivata e adattamento parametrico della funzione di perdita. I nostri approcci convergono sullo stesso risultato, ovvero che la dimensione ottimale del vocabolario dipende dal budget di calcolo disponibile e che modelli più grandi meritano vocabolari più ampi. Tuttavia, la maggior parte degli LLM utilizza dimensioni del vocabolario troppo ridotte. Ad esempio, prevediamo che la dimensione ottimale del vocabolario di Llama2-70B avrebbe dovuto essere almeno 216K, 7 volte più grande del suo vocabolario di 32K. Validiamo empiricamente le nostre previsioni addestrando modelli con 3B di parametri su diversi budget di FLOPs. Adottare la nostra dimensione ottimale prevista del vocabolario migliora costantemente le prestazioni downstream rispetto alle dimensioni del vocabolario comunemente utilizzate. Aumentando la dimensione del vocabolario dai convenzionali 32K a 43K, miglioriamo le prestazioni su ARC-Challenge da 29.1 a 32.0 con gli stessi 2.3e21 FLOPs. Il nostro lavoro sottolinea la necessità di considerare congiuntamente i parametri del modello e la dimensione del vocabolario per un ridimensionamento efficiente.
English
Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.
PDF566November 28, 2024