Kanana: 計算効率の高いバイリンガル言語モデル
Kanana: Compute-efficient Bilingual Language Models
February 26, 2025
著者: Kanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo
cs.AI
要旨
我々はKananaを紹介する。これは、韓国語において卓越した性能を発揮し、英語においても競争力のある性能を示す一連の二言語モデルである。Kananaの計算コストは、同規模の最先端モデルと比較して大幅に低い。本報告書では、計算効率の高い競争力のあるモデルを実現するために事前学習中に採用された技術を詳細に説明する。これには、高品質なデータフィルタリング、段階的な事前学習、深度スケーリング、およびプルーニングと蒸留が含まれる。さらに、Kananaモデルの事後学習中に利用された方法論について概説する。これには、ユーザーとのシームレスなインタラクションを強化するための教師ありファインチューニングと選好最適化が含まれる。最後に、特定のシナリオへの言語モデルの適応に使用される可能性のあるアプローチについて詳述する。これには、埋め込み、検索拡張生成、および関数呼び出しが含まれる。Kananaモデルシリーズは、2.1Bから32.5Bパラメータの範囲に及び、韓国語モデルの研究を促進するために2.1Bモデル(ベース、インストラクト、埋め込み)が公開されている。
English
We introduce Kanana, a series of bilingual language models that demonstrate
exceeding performance in Korean and competitive performance in English. The
computational cost of Kanana is significantly lower than that of
state-of-the-art models of similar size. The report details the techniques
employed during pre-training to achieve compute-efficient yet competitive
models, including high quality data filtering, staged pre-training, depth
up-scaling, and pruning and distillation. Furthermore, the report outlines the
methodologies utilized during the post-training of the Kanana models,
encompassing supervised fine-tuning and preference optimization, aimed at
enhancing their capability for seamless interaction with users. Lastly, the
report elaborates on plausible approaches used for language model adaptation to
specific scenarios, such as embedding, retrieval augmented generation, and
function calling. The Kanana model series spans from 2.1B to 32.5B parameters
with 2.1B models (base, instruct, embedding) publicly released to promote
research on Korean language models.Summary
AI-Generated Summary