Kanana: Modelos de Linguagem Bilíngues Eficientes em Computação
Kanana: Compute-efficient Bilingual Language Models
February 26, 2025
Autores: Kanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo
cs.AI
Resumo
Apresentamos Kanana, uma série de modelos de linguagem bilíngues que demonstram desempenho excepcional em coreano e desempenho competitivo em inglês. O custo computacional do Kanana é significativamente menor do que o de modelos de ponta de tamanho semelhante. O relatório detalha as técnicas utilizadas durante o pré-treinamento para alcançar modelos eficientes em termos de computação, porém competitivos, incluindo filtragem de dados de alta qualidade, pré-treinamento em estágios, aumento de profundidade, poda e destilação. Além disso, o relatório esboça as metodologias utilizadas durante o pós-treinamento dos modelos Kanana, abrangendo ajuste fino supervisionado e otimização de preferências, com o objetivo de aprimorar sua capacidade de interação perfeita com os usuários. Por fim, o relatório detalha abordagens plausíveis usadas para a adaptação de modelos de linguagem a cenários específicos, como incorporação, geração aumentada por recuperação e chamada de função. A série de modelos Kanana varia de 2,1 bilhões a 32,5 bilhões de parâmetros, sendo que os modelos de 2,1 bilhões (base, instrução, incorporação) foram disponibilizados publicamente para promover a pesquisa em modelos de linguagem coreana.
English
We introduce Kanana, a series of bilingual language models that demonstrate
exceeding performance in Korean and competitive performance in English. The
computational cost of Kanana is significantly lower than that of
state-of-the-art models of similar size. The report details the techniques
employed during pre-training to achieve compute-efficient yet competitive
models, including high quality data filtering, staged pre-training, depth
up-scaling, and pruning and distillation. Furthermore, the report outlines the
methodologies utilized during the post-training of the Kanana models,
encompassing supervised fine-tuning and preference optimization, aimed at
enhancing their capability for seamless interaction with users. Lastly, the
report elaborates on plausible approaches used for language model adaptation to
specific scenarios, such as embedding, retrieval augmented generation, and
function calling. The Kanana model series spans from 2.1B to 32.5B parameters
with 2.1B models (base, instruct, embedding) publicly released to promote
research on Korean language models.Summary
AI-Generated Summary