Lois d'échelle avec le vocabulaire : Les modÚles plus grands méritent des vocabulaires plus étendusScaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Les recherches sur la mise Ă l'Ă©chelle des grands modĂšles de langage (LLMs) se sont principalement concentrĂ©es sur les paramĂštres du modĂšle et la taille des donnĂ©es d'entraĂźnement, nĂ©gligeant le rĂŽle de la taille du vocabulaire. Intuitivement, des vocabulaires plus grands permettent une tokenisation plus efficace en reprĂ©sentant les phrases avec moins de tokens, mais ils augmentent Ă©galement le risque de sous-ajustement des reprĂ©sentations pour les tokens rares. Nous Ă©tudions comment la taille du vocabulaire influence les lois de mise Ă l'Ă©chelle des LLMs en entraĂźnant des modĂšles allant de 33M Ă 3B de paramĂštres sur jusqu'Ă 500B de caractĂšres avec diverses configurations de vocabulaire. Nous proposons trois approches complĂ©mentaires pour prĂ©dire la taille optimale du vocabulaire en termes de calcul : l'analyse IsoFLOPs, l'estimation des dĂ©rivĂ©es et l'ajustement paramĂ©trique de la fonction de perte. Nos approches convergent vers le mĂȘme rĂ©sultat : la taille optimale du vocabulaire dĂ©pend du budget de calcul disponible et les modĂšles plus grands mĂ©ritent des vocabulaires plus Ă©tendus. Cependant, la plupart des LLMs utilisent des vocabulaires trop petits. Par exemple, nous prĂ©disons que la taille optimale du vocabulaire de Llama2-70B aurait dĂ» ĂȘtre d'au moins 216K, soit 7 fois plus grande que son vocabulaire de 32K. Nous validons empiriquement nos prĂ©dictions en entraĂźnant des modĂšles de 3B de paramĂštres avec diffĂ©rents budgets de FLOPs. L'adoption de notre taille de vocabulaire optimale prĂ©dite amĂ©liore systĂ©matiquement les performances en aval par rapport aux tailles de vocabulaire couramment utilisĂ©es. En augmentant la taille du vocabulaire de 32K Ă 43K, nous amĂ©liorons les performances sur ARC-Challenge de 29,1 Ă 32,0 avec les mĂȘmes 2,3e21 FLOPs. Notre travail souligne la nĂ©cessitĂ© de considĂ©rer conjointement les paramĂštres du modĂšle et la taille du vocabulaire pour une mise Ă l'Ă©chelle efficace.