Typhoon-S: Minimización de la Post-Entrenamiento Abierta para Modelos de Lenguaje Grandes Soberanos
Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
January 26, 2026
Autores: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) han progresado rápidamente; sin embargo, la mayoría de los modelos de última generación se entrenan y evalúan principalmente en idiomas de altos recursos como el inglés y el chino, y a menudo son desarrollados por un pequeño número de organizaciones con acceso a computación y datos a gran escala. Esta restricción crea una barrera práctica para entornos soberanos, en los que una institución a escala regional o nacional o un propietario de dominio debe mantener el control y la comprensión de los pesos del modelo, los datos de entrenamiento y el despliegue, mientras opera con recursos limitados y estrictas restricciones de transparencia. Con este fin, identificamos dos requisitos fundamentales: (1) la adoptabilidad, la capacidad de transformar un modelo base en un asistente de propósito general, y (2) la capacidad soberana, la habilidad de realizar tareas de alto impacto y específicas de la región (por ejemplo, razonamiento legal en idiomas locales y conocimiento cultural). Investigamos si estos requisitos pueden lograrse sin escalar corpus de instrucciones masivos ni depender de complejos pipelines de ajuste de preferencias y de ajuste fino por refuerzo (RFT) a gran escala. Presentamos Typhoon S, una receta de post-entrenamiento mínima y abierta que combina ajuste fino supervisado, destilación en-política y RFT a pequeña escala. Utilizando el tailandés como caso de estudio representativo, demostramos que nuestro enfoque transforma tanto los modelos base adaptados a la soberanía como los de propósito general en modelos ajustados por instrucciones con un sólido rendimiento general. Además, mostramos que el RFT a pequeña escala con InK-GRPO —una extensión de GRPO que aumenta la pérdida de GRPO con una pérdida de predicción de la siguiente palabra— mejora el razonamiento legal en tailandés y el conocimiento específico de Tailandia, preservando al mismo tiempo las capacidades generales. Nuestros resultados sugieren que una estrategia de post-entrenamiento cuidadosamente diseñada puede reducir la escala requerida de datos de instrucción y computación, proporcionando un camino práctico hacia LLM soberanos de alta calidad bajo recursos de escala académica.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.