YuLan-Mini: Um Modelo de Linguagem de Fonte Aberta Eficiente em DadosYuLan-Mini: An Open Data-efficient Language Model
O treinamento eficaz de grandes modelos de linguagem (LLMs) tem sido desafiador devido às enormes demandas de recursos e à complexidade dos processos técnicos envolvidos. Este artigo apresenta um relatório técnico detalhado sobre YuLan-Mini, um modelo base altamente capaz com 2,42 bilhões de parâmetros que alcança um desempenho de primeira linha entre modelos de escala de parâmetros semelhante. Nossa abordagem de pré-treinamento concentra-se em aprimorar a eficácia do treinamento por meio de três contribuições técnicas-chave: um elaborado pipeline de dados que combina limpeza de dados com estratégias de programação de dados, um método robusto de otimização para mitigar a instabilidade do treinamento e uma abordagem eficaz de têmpera que incorpora seleção de dados direcionada e treinamento de contexto longo. Notavelmente, o YuLan-Mini, treinado em 1,08 trilhão de tokens, alcança um desempenho comparável a modelos líderes do setor que exigem significativamente mais dados. Para facilitar a reprodução, disponibilizamos todos os detalhes da composição dos dados para cada fase de treinamento. Os detalhes do projeto podem ser acessados no seguinte link: https://github.com/RUC-GSAI/YuLan-Mini.