ChatPaper.aiChatPaper

Солнечный открытый технический отчет

Solar Open Technical Report

January 11, 2026
Авторы: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI

Аннотация

Мы представляем Solar Open — 102-миллиардную двуязычную модель смеси экспертов (Mixture-of-Experts), разработанную для языков с ограниченными ресурсами. Solar Open демонстрирует системную методологию создания конкурентоспособных больших языковых моделей, решая три взаимосвязанные задачи. Во-первых, для эффективного обучения в условиях недостатка данных по таким языкам мы синтезировали 4,5 триллиона токенов высококачественных, узкоспециализированных и ориентированных на обучение с подкреплением данных. Во-вторых, мы организовали эти данные с помощью прогрессивного учебного плана, совместно оптимизирующего состав, пороги качества и охват предметных областей на 20 триллионах токенов. В-третьих, для развития способностей к логическому рассуждению с помощью масштабируемого обучения с подкреплением мы применили предложенный нами фреймворк SnapPO для эффективной оптимизации. По результатам тестирования на английском и корейском языках Solar Open демонстрирует конкурентоспособную производительность, подтверждая эффективность данной методологии для развития ИИ в условиях ограниченных языковых ресурсов.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
PDF501January 15, 2026