Typhoon-S: Pós-treinamento Aberto Mínimo para Modelos de Linguagem de Grande Porte Soberanos
Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
January 26, 2026
Autores: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) progrediram rapidamente; no entanto, a maioria dos modelos de última geração são treinados e avaliados principalmente em idiomas de alto recurso, como inglês e chinês, e são frequentemente desenvolvidos por um pequeno número de organizações com acesso a computação e dados em larga escala. Esta restrição cria uma barreira prática para contextos soberanos, nos quais uma instituição em escala regional ou nacional ou um proprietário de domínio deve manter o controle e a compreensão dos pesos do modelo, dos dados de treinamento e da implantação, enquanto opera com recursos limitados e sob rigorosas restrições de transparência. Para esse fim, identificamos dois requisitos centrais: (1) adotabilidade, a capacidade de transformar um modelo base em um assistente de propósito geral, e (2) capacidade soberana, a capacidade de executar tarefas de alto risco e específicas da região (por exemplo, raciocínio jurídico em idiomas locais e conhecimento cultural). Investigamos se esses requisitos podem ser alcançados sem dimensionar corpora de instruções massivas ou depender de pipelines complexos de ajuste de preferência e de ajuste fino por reforço em larga escala (RFT). Apresentamos o Typhoon S, uma receita de pós-treinamento mínima e aberta que combina ajuste fino supervisionado, destilação on-policy e RFT em pequena escala. Usando o tailandês como um estudo de caso representativo, demonstramos que nossa abordagem transforma tanto modelos base adaptados para soberania quanto modelos de propósito geral em modelos ajustados por instrução com forte desempenho geral. Mostramos ainda que o RFT em pequena escala com InK-GRPO – uma extensão do GRPO que aumenta a perda do GRPO com uma perda de previsão da próxima palavra – melhora o raciocínio jurídico em tailandês e o conhecimento específico do tailandês, preservando as capacidades gerais. Nossos resultados sugerem que uma estratégia de pós-treinamento cuidadosamente projetada pode reduzir a escala necessária de dados de instrução e computação, fornecendo um caminho prático para LLMs soberanos de alta qualidade com recursos em escala acadêmica.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.