ChatPaper.aiChatPaper

Typhoon-S : une approche minimale de post-entraînement ouvert pour des modèles de langage souverains

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

January 26, 2026
papers.authors: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont progressé rapidement ; cependant, la plupart des modèles de pointe sont entraînés et évalués principalement dans des langues riches en ressources comme l'anglais et le chinois, et sont souvent développés par un petit nombre d'organisations ayant accès à des capacités de calcul et des données à grande échelle. Cette restriction crée une barrière pratique pour les contextes souverains dans lesquels une institution à l'échelle régionale ou nationale ou un propriétaire de domaine doit conserver le contrôle et la compréhension des poids du modèle, des données d'entraînement et du déploiement tout en opérant avec des ressources limitées et sous des contraintes strictes de transparence. À cette fin, nous identifions deux exigences fondamentales : (1) l'adoptabilité, la capacité à transformer un modèle de base en assistant à usage général, et (2) la capacité souveraine, la capacité à effectuer des tâches à enjeux élevés et spécifiques à une région (par exemple, le raisonnement juridique dans les langues locales et la connaissance culturelle). Nous étudions si ces exigences peuvent être atteintes sans mettre à l'échelle des corpus d'instructions massifs ou sans dépendre de pipelines complexes de réglage des préférences et de réglage fin par renforcement (RFT) à grande échelle. Nous présentons Typhoon S, une recette de post-formation minimale et ouverte qui combine un réglage fin supervisé, une distillation sur politique et un RFT à petite échelle. En utilisant le thaï comme étude de cas représentative, nous démontrons que notre approche transforme à la fois les modèles de base adaptés aux besoins souverains et les modèles à usage général en modèles réglés pour les instructions avec de solides performances générales. Nous montrons en outre qu'un RFT à petite échelle avec InK-GRPO -- une extension de GRPO qui augmente la perte GRPO avec une perte de prédiction du mot suivant -- améliore le raisonnement juridique en thaï et les connaissances spécifiques au thaï tout en préservant les capacités générales. Nos résultats suggèrent qu'une stratégie de post-formation soigneusement conçue peut réduire l'échelle requise des données d'instruction et des calculs, offrant ainsi une voie pratique vers des LLM souverains de haute qualité avec des ressources à l'échelle académique.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.
PDF84January 31, 2026