Typhoon-S: Minimale Open Post-Training voor Soevereine Grote Taalmodellen

Samenvatting

Grote taalmodellen (LLM's) hebben een snelle ontwikkeling doorgemaakt; de meeste state-of-the-art modellen worden echter voornamelijk getraind en geëvalueerd in talen met veel resources, zoals Engels en Chinees, en worden vaak ontwikkeld door een klein aantal organisaties met toegang tot grootschalige rekenkracht en data. Deze poortwachtersfunctie creëert een praktische barrière voor soevereine contexten, waarin een instelling op regionaal of nationaal niveau of een domeineigenaar de controle en het begrip van modelgewichten, trainingsdata en implementatie moet behouden, terwijl wordt gewerkt met beperkte middelen en strikte transparantie-eisen. Hiertoe identificeren we twee kernvereisten: (1) aanpasbaarheid, het vermogen om een basismodel om te vormen tot een algemene assistent, en (2) soeverein vermogen, het vermogen om hoog-risicotaken uit te voeren die specifiek zijn voor een regio (bijv. juridisch redeneren in lokale talen en culturele kennis). Wij onderzoeken of aan deze vereisten kan worden voldaan zonder gebruik te maken van enorme instructiecorpora of complexe pijplijnen voor voorkeur-afstemming en grootschalige reinforcement fine-tuning (RFT). Wij presenteren Typhoon S, een minimale en open post-trainingsmethode die supervised fine-tuning, on-policy distillatie en kleinschalige RFT combineert. Met het Thai als representatieve casestudy tonen we aan dat onze aanpak zowel soeverein-aangepaste als algemene basismodellen omvormt tot instructie-afgestemde modellen met sterke algemene prestaties. We laten verder zien dat kleinschalige RFT met InK-GRPO – een uitbreiding van GRPO die het GRPO-verlies aanvult met een voorspellingsverlies voor het volgende woord – het juridisch redeneren in het Thai en de Thai-specifieke kennis verbetert, terwijl de algemene capaciteiten behouden blijven. Onze resultaten suggereren dat een zorgvuldig ontworpen post-trainingsstrategie de vereiste schaal van instructiedata en rekenwerk kan verminderen, wat een praktisch pad biedt naar hoogwaardige soevereine LLM's met academische schaalmiddelen.

English

Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.

Typhoon-S: Minimale Open Post-Training voor Soevereine Grote Taalmodellen

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

Samenvatting

Support