ChatPaper.aiChatPaper

Typhoon-S: 주권적 대규모 언어 모델을 위한 최소한의 사후 학습

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

January 26, 2026
저자: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI

초록

대규모 언어 모델(LLM)의 발전 속도는 빠르지만, 대부분의 최첨단 모델은 영어 및 중국어와 같은 고자원 언어를 중심으로 훈련 및 평가되며, 대규모 컴퓨팅 자원과 데이터에 접근할 수 있는 소수 기관에 의해 개발되는 경우가 많습니다. 이러한 진입 장벽은 제한된 자원과 엄격한 투명성 제약 조건 하에서 운영되면서도 지역 또는 국가 규모의 기관이나 도메인 소유자가 모델 가중치, 훈련 데이터, 배포에 대한 통제력과 이해를 유지해야 하는 주권적 환경에서 실질적인 장애물로 작용합니다. 이를 위해 우리는 두 가지 핵심 요구 사항을 확인했습니다: (1) 기본 모델을 일반 목적의 어시스턴트로 변환하는 능력인 도입 가능성(adoptability), 그리고 (2) 현지 언어의 법률 추론 및 문화적 지식과 같이 위험도가 높고 지역별로 특화된 작업을 수행하는 능력인 주권적 역량(sovereign capability). 우리는 이러한 요구 사항이 대규모 명령어 코퍼스의 확장이나 복잡한 선호도 튜닝 파이프라인 및 대규모 강화 미세조정(RFT)에 의존하지 않고도 달성될 수 있는지 조사합니다. 우리는 지도 미세조정, 온-정책 지식 증류, 소규모 RFT를 결합한 최소화되고 개방된 사후 훈련 방법론인 Typhoon S를 제시합니다. 대표 사례 연구로 태국어를 사용하여, 우리의 접근 방식이 주권에 적응된 기본 모델과 일반 목적 기본 모델 모두을 강력한 일반 성능을 가진 명령어 튜닝 모델로 변환함을 입증합니다. 또한, GRPO 손실에 다음 단어 예측 손실을 추가한 InK-GRPO를 이용한 소규모 RFT가 일반 능력을 보존하면서 태국어 법률 추론 및 태국 특화 지식 성능을 향상시킴을 보여줍니다. 우리의 결과는 신중하게 설계된 사후 훈련 전략이 필요한 명령어 데이터와 컴퓨팅의 규모를 줄여, 학술 수준의 자원으로 고품질 주권 LLM을 구현하는 실용적인 경로를 제공할 수 있음을 시사합니다.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.
PDF84January 31, 2026