ChatPaper.aiChatPaper

태양 에너지 공개 기술 보고서

Solar Open Technical Report

January 11, 2026
저자: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI

초록

저희는 저자원 언어를 위한 102B 파라미터 규모의 이중 언어 전문가 혼합(Solar Open) 모델을 소개합니다. Solar Open은 상호 연계된 세 가지 과제를 해결함으로써 경쟁력 있는 대규모 언어 모델을 구축하는 체계적인 방법론을 보여줍니다. 첫째, 저자원 언어의 데이터 부족 문제를 극복하기 위해 고품질의 도메인 특화적이며 강화학습 지향적인 4.5T 토큰 규모의 데이터를 합성했습니다. 둘째, 20조 토큰에 걸쳐 데이터 구성, 품질 임계값, 도메인 커버리지를 종합적으로 최적화하는 점진적 커리큘럼을 통해 이 데이터를 체계적으로 조정했습니다. 셋째, 확장성 있는 강화학습을 통한 추론 능력 구현을 위해 효율적 최적화를 위한 SnapPO 프레임워크를 적용했습니다. 영어 및 한국어 벤치마크에서 Solar Open은 경쟁력 있는 성능을 달성하며, 저자원 언어 AI 개발을 위한 본 방법론의 효과성을 입증했습니다.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
PDF501January 15, 2026