Typhoon T1 : Un modèle de raisonnement thaïlandais ouvert

papers.abstract

Cet article présente Typhoon T1, un effort ouvert visant à développer un modèle de raisonnement thaïlandais ouvert. Un modèle de raisonnement est un type relativement nouveau de modèle génératif construit sur des modèles de langage de grande taille (LLM). Un modèle de raisonnement génère une longue chaîne de pensées avant d'arriver à une réponse finale, une approche qui s'est avérée améliorer les performances sur des tâches complexes. Cependant, les détails sur le développement d'un tel modèle sont limités, en particulier pour les modèles de raisonnement capables de générer des traces dans une langue à faibles ressources. Typhoon T1 présente un effort ouvert qui explore en détail le développement d'un modèle de raisonnement de manière plus rentable en utilisant un accordage fin supervisé avec des ensembles de données ouverts, au lieu de l'apprentissage par renforcement. Cet article partage les détails sur la génération de données synthétiques et l'entraînement, ainsi que notre ensemble de données et les poids du modèle. De plus, nous fournissons des perspectives acquises lors du développement d'un modèle de raisonnement qui généralise à travers les domaines et est capable de générer des traces de raisonnement dans une langue à faibles ressources, en utilisant le thaïlandais comme exemple. Nous espérons que cet effort ouvert posera les bases pour de futures recherches dans ce domaine.

English

This paper introduces Typhoon T1, an open effort to develop an open Thai reasoning model. A reasoning model is a relatively new type of generative model built on top of large language models (LLMs). A reasoning model generates a long chain of thought before arriving at a final answer, an approach found to improve performance on complex tasks. However, details on developing such a model are limited, especially for reasoning models that can generate traces in a low-resource language. Typhoon T1 presents an open effort that dives into the details of developing a reasoning model in a more cost-effective way by leveraging supervised fine-tuning using open datasets, instead of reinforcement learning. This paper shares the details about synthetic data generation and training, as well as our dataset and model weights. Additionally, we provide insights gained from developing a reasoning model that generalizes across domains and is capable of generating reasoning traces in a low-resource language, using Thai as an example. We hope this open effort provides a foundation for further research in this field.

Typhoon T1 : Un modèle de raisonnement thaïlandais ouvert

Typhoon T1: An Open Thai Reasoning Model

papers.abstract

Support