ChatPaper.aiChatPaper

Тайфун-S: минимальная открытая постобработка для суверенных больших языковых моделей

Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

January 26, 2026
Авторы: Kunat Pipatanakul, Pittawat Taveekitworachai
cs.AI

Аннотация

Крупные языковые модели (LLM) быстро развиваются, однако большинство передовых моделей обучаются и оцениваются преимущественно на высокоресурсных языках, таких как английский и китайский, и часто разрабатываются небольшим числом организаций, имеющих доступ к крупномасштабным вычислительным ресурсам и данным. Такая ситуация создает практический барьер для суверенных сред, где учреждения регионального или национального масштаба либо владельцы доменов должны сохранять контроль и понимание весов модели, обучающих данных и развертывания, работая в условиях ограниченных ресурсов и строгих требований к прозрачности. Для решения этой проблемы мы определяем два ключевых требования: (1) адаптивность — способность преобразовать базовую модель в универсального ассистента, и (2) суверенная способность — умение выполнять высокоответственные, специфичные для региона задачи (например, юридические рассуждения на местных языках и работа с культурными знаниями). Мы исследуем, можно ли достичь этих требований без масштабирования массивных корпусов инструкций или reliance на сложные конвейеры тонкой настройки предпочтений и крупномасштабную reinforcement fine-tuning (RFT). Мы представляем Typhoon S — минималистичный и открытый рецепт пост-обучения, сочетающий supervised fine-tuning, on-policy distillation и RFT малого масштаба. Используя тайский язык в качестве репрезентативного кейс-стади, мы демонстрируем, что наш подход преобразует как суверенно-адаптированные, так и универсальные базовые модели в инструктивно-настроенные модели с высокой общей производительностью. Мы также показываем, что RFT малого масштаба с InK-GRPO — расширением GRPO, дополняющим функцию потерь GRPO потерей предсказания следующего слова — улучшает юридические рассуждения на тайском и знание тайской специфики, сохраняя при этом общие способности. Наши результаты свидетельствуют, что тщательно разработанная стратегия пост-обучения может сократить требуемый объем инструктивных данных и вычислений, предлагая практический путь к созданию высококачественных суверенных LLM в рамках академических ресурсов.
English
Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.
PDF84January 31, 2026