ChatPaper.aiChatPaper

太陽光発電技術レポート

Solar Open Technical Report

January 11, 2026
著者: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI

要旨

我々は、低リソース言語向けの102Bパラメータ規模の二言語混合専門家(Mixture-of-Experts)言語モデル「Solar Open」を紹介する。Solar Openは、相互に関連する3つの課題に取り組むことで競争力のある大規模言語モデルを構築する体系的な方法論を示している。第一に、低リソース言語におけるデータ不足の課題に対処するため、高品質でドメイン特化的かつ強化学習指向の4.5兆トークンの合成データを生成した。第二に、20兆トークンにわたるデータ構成・品質閾値・ドメインカバレッジを共同最適化する段階的カリキュラムを通じて、これらのデータを体系的に調整した。第三に、スケーラブルな強化学習による推論能力を実現するため、効率的な最適化のための提案手法SnapPOを適用した。英語と韓国語のベンチマークにおいて、Solar Openは競争力のある性能を達成し、低リソース言語AI開発における本手法の有効性を実証している。
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
PDF501January 15, 2026