ChatPaper.aiChatPaper

Rapport Technique Ouvert sur l'Énergie Solaire

Solar Open Technical Report

January 11, 2026
papers.authors: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI

papers.abstract

Nous présentons Solar Open, un modèle de langage bilingue de type Mixture-of-Experts comptant 102 milliards de paramètres, conçu pour les langues sous-représentées. Solar Open illustre une méthodologie systématique pour développer des modèles de langage de grande taille compétitifs en relevant trois défis interconnectés. Premièrement, pour un entraînement efficace malgré la rareté des données pour les langues sous-représentées, nous synthétisons 4,5 billions de tokens de données de haute qualité, spécifiques à un domaine et orientées apprentissage par renforcement. Deuxièmement, nous organisons ces données via un curriculum progressif optimisant conjointement la composition, les seuils de qualité et la couverture des domaines sur 20 billions de tokens. Troisièmement, pour doter le modèle de capacités de raisonnement via un apprentissage par renforcement scalable, nous appliquons notre cadre SnapPO pour une optimisation efficace. Sur des benchmarks en anglais et en coréen, Solar Open obtient des performances compétitives, démontrant l'efficacité de cette méthodologie pour le développement de l'IA dans les langues sous-représentées.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
PDF501January 15, 2026