Kanana: Modelos de Linguagem Bilíngues Eficientes em Computação

Resumo

Apresentamos Kanana, uma série de modelos de linguagem bilíngues que demonstram desempenho excepcional em coreano e desempenho competitivo em inglês. O custo computacional do Kanana é significativamente menor do que o de modelos de ponta de tamanho semelhante. O relatório detalha as técnicas utilizadas durante o pré-treinamento para alcançar modelos eficientes em termos de computação, porém competitivos, incluindo filtragem de dados de alta qualidade, pré-treinamento em estágios, aumento de profundidade, poda e destilação. Além disso, o relatório esboça as metodologias utilizadas durante o pós-treinamento dos modelos Kanana, abrangendo ajuste fino supervisionado e otimização de preferências, com o objetivo de aprimorar sua capacidade de interação perfeita com os usuários. Por fim, o relatório detalha abordagens plausíveis usadas para a adaptação de modelos de linguagem a cenários específicos, como incorporação, geração aumentada por recuperação e chamada de função. A série de modelos Kanana varia de 2,1 bilhões a 32,5 bilhões de parâmetros, sendo que os modelos de 2,1 bilhões (base, instrução, incorporação) foram disponibilizados publicamente para promover a pesquisa em modelos de linguagem coreana.

English

We introduce Kanana, a series of bilingual language models that demonstrate exceeding performance in Korean and competitive performance in English. The computational cost of Kanana is significantly lower than that of state-of-the-art models of similar size. The report details the techniques employed during pre-training to achieve compute-efficient yet competitive models, including high quality data filtering, staged pre-training, depth up-scaling, and pruning and distillation. Furthermore, the report outlines the methodologies utilized during the post-training of the Kanana models, encompassing supervised fine-tuning and preference optimization, aimed at enhancing their capability for seamless interaction with users. Lastly, the report elaborates on plausible approaches used for language model adaptation to specific scenarios, such as embedding, retrieval augmented generation, and function calling. The Kanana model series spans from 2.1B to 32.5B parameters with 2.1B models (base, instruct, embedding) publicly released to promote research on Korean language models.

Kanana: Modelos de Linguagem Bilíngues Eficientes em Computação

Kanana: Compute-efficient Bilingual Language Models

Resumo

Support