Typhoon-S: Approccio Minimalista Open Post-Training per Modelli Linguistici di Grande Dimensione Sovrani
Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
January 26, 2026
Autori: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto rapidi progressi; tuttavia, la maggior parte dei modelli all'avanguardia viene addestrata e valutata principalmente in lingue ad alte risorse come l'inglese e il cinese, ed è spesso sviluppata da un numero ristretto di organizzazioni con accesso a capacità computazionali e dati su larga scala. Questa custodia crea una barriera pratica per contesti sovrani in cui un'istituzione a livello regionale o nazionale o un proprietario di dominio deve mantenere il controllo e la comprensione dei pesi del modello, dei dati di addestramento e del deployment, operando con risorse limitate e vincoli rigorosi di trasparenza. A tal fine, identifichiamo due requisiti fondamentali: (1) l'adozione, ovvero la capacità di trasformare un modello base in un assistente generico, e (2) la capacità sovrana, ovvero la capacità di svolgere compiti ad alto rischio e specifici della regione (ad esempio, il ragionamento giuridico in lingue locali e la conoscenza culturale). Indaghiamo se questi requisiti possano essere raggiunti senza scalare enormi corpora di istruzioni o fare affidamento su complesse pipeline di ottimizzazione delle preferenze e su un fine-tuning RL su larga scala (RFT). Presentiamo Typhoon S, una ricetta minima e aperta di post-addestramento che combina fine-tuning supervisionato, distillazione on-policy e RFT su piccola scala. Utilizzando il thailandese come caso di studio rappresentativo, dimostriamo che il nostro approccio trasforma sia i modelli base adattati al contesto sovrano che quelli a scopo generico in modelli ottimizzati per le istruzioni con solide prestazioni generali. Mostriamo inoltre che l'RFT su piccola scala con InK-GRPO – un'estensione di GRPO che arricchisce la loss GRPO con una loss di predizione della parola successiva – migliora il ragionamento giuridico in thailandese e la conoscenza specifica della Thailandia, preservando al contempo le capacità generali. I nostri risultati suggeriscono che una strategia di post-addestramento accuratamente progettata può ridurre la scala richiesta di dati di istruzione e computazione, fornendo un percorso pratico verso LLM sovrani di alta qualità con risorse di scala accademica.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.