ChatPaper.aiChatPaper

Typhoon-S: Minimaler offener Nachfeinschliff für souveräne Large Language Models

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

January 26, 2026
papers.authors: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben sich rasant entwickelt; die meisten modernsten Modelle werden jedoch hauptsächlich in ressourcenstarken Sprachen wie Englisch und Chinesisch trainiert und evaluiert und oft von einer kleinen Anzahl von Organisationen entwickelt, die Zugang zu rechen- und datenintensiven Ressourcen haben. Diese Gatekeeping-Praxis errichtet eine praktische Barriere für souveräne Kontexte, in denen eine Institution auf regionaler oder nationaler Ebene oder ein Domäneninhaber die Kontrolle und das Verständnis über Modellgewichte, Trainingsdaten und den Einsatz bewahren muss, während sie mit begrenzten Ressourcen und unter strengen Transparenzanforderungen operieren. Zu diesem Zweck identifizieren wir zwei Kernanforderungen: (1) Adoptierbarkeit, also die Fähigkeit, ein Basismodell in einen allgemeinen Assistenten zu überführen, und (2) souveräne Fähigkeit, also die Fähigkeit, hochrelevante, regionsspezifische Aufgaben zu bewältigen (z.B. juristische Schlussfolgerungen in lokalen Sprachen und kulturelles Wissen). Wir untersuchen, ob diese Anforderungen erfüllt werden können, ohne auf massive Instruction-Datensätze oder komplexe Preference-Tuning-Pipelines und Reinforcement Fine-Tuning (RFT) in großem Maßstab zurückzugreifen. Wir stellen Typhoon S vor, eine minimale und offene Nachtrainierungsmethode, die supervised Fine-Tuning, On-Policy-Distillation und RFT in kleinem Maßstab kombiniert. Am Beispiel von Thai als repräsentativer Fallstudie zeigen wir, dass unser Ansatz sowohl souverän angepasste als auch allgemeine Basismodelle in instruktionsoptimierte Modelle mit starker Allgemeinleistung transformiert. Wir zeigen weiter, dass RFT in kleinem Maßstab mit InK-GRPO – einer Erweiterung von GRPO, die den GRPO-Verlust um einen Next-Word-Prediction-Verlust erweitert – das thailändische Rechtsverständnis und thailandspezifisches Wissen verbessert, während allgemeine Fähigkeiten erhalten bleiben. Unsere Ergebnisse deuten darauf hin, dass eine sorgfältig gestaltete Nachtrainierungsstrategie den erforderlichen Umfang an Instruktionsdaten und Rechenleistung reduzieren kann und somit einen praktischen Weg zu hochwertigen souveränen LLMs mit akademischen Ressourcen eröffnet.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.
PDF84January 31, 2026