Rapporto Tecnico Aperto Solare
Solar Open Technical Report
January 11, 2026
Autori: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI
Abstract
Presentiamo Solar Open, un modello linguistico bilingue Mixture-of-Experts da 102 miliardi di parametri per lingue sottorappresentate. Solar Open dimostra una metodologia sistematica per costruire modelli linguistici di grandi dimensioni competitivi affrontando tre sfide interconnesse. In primo luogo, per addestrare efficacemente nonostante la scarsità di dati per le lingue sottorappresentate, sintetizziamo 4,5 trilioni di token di dati di alta qualità, specifici per dominio e orientati all'apprendimento per rinforzo. In secondo luogo, organizziamo questi dati attraverso un curriculum progressivo che ottimizza congiuntamente composizione, soglie di qualità e copertura di dominio su 20 trilioni di token. In terzo luogo, per abilitare capacità di ragionamento tramite apprendimento per rinforzo scalabile, applichiamo la nostra framework proposta SnapPO per un'ottimizzazione efficiente. Su benchmark in inglese e coreano, Solar Open raggiunge prestazioni competitive, dimostrando l'efficacia di questa metodologia per lo sviluppo di intelligenza artificiale per lingue sottorappresentate.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.