台風-S:主権的大規模言語モデルのための最小限の事後学習
Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
January 26, 2026
著者: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI
要旨
大規模言語モデル(LLM)は急速に進歩しているが、現在の最先端モデルのほとんどは英語や中国語などの高リソース言語を中心に学習・評価されており、大規模な計算資源やデータへのアクセス権を持つ少数の組織によって開発される傾向にある。このような情報囲い込みは、限られたリソースと厳格な透明性制約の下で運用しながら、モデル重み、学習データ、展開に関する制御と理解を地域または国家規模の機関やドメイン所有者が維持しなければならない主権的環境において、現実的な障壁となっている。この課題に対処するため、我々は二つの核心的な要件を特定する:(1)基本モデルを汎用アシスタントへ変換する「採用可能性」、(2)現地言語による法的推論や文化的知識など、地域固有の高リスクタスクを実行する「主権的機能」である。本論文では、大規模な指示データの拡張や複雑な選好チューニングパイプライン、大規模な強化学習ファインチューニング(RFT)に依存せずにこれらの要件を達成できるかどうかを検証する。我々は、教師ありファインチューニング、方策蒸留、小規模RFTを組み合わせた最小限でオープンな学習後レシピ「Typhoon S」を提案する。タイ語を代表的なケーススタディとして、本アプローチが主権適応型および汎用基本モデルの両方を、強力な汎用性能を備えた指示調整モデルに変換できることを実証する。さらに、GRPO損失を次単語予測損失で拡張したInK-GRPOを用いた小規模RFTが、一般的な能力を維持しつつタイ語の法的推論やタイ固有の知識タスクを改善することを示す。これらの結果は、慎重に設計された学習後戦略が指示データと計算資源の必要規模を削減し、学術規模のリソース下で高品質な主権LLMを実現する現実的な道筋を提供することを示唆している。
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.