ChatPaper.aiChatPaper

Intégration des connaissances du domaine dans la tokenisation des matériaux

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
Auteurs: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

Résumé

Alors que les modèles de langage sont de plus en plus utilisés en science des matériaux, les modèles typiques reposent sur des méthodes de tokenisation centrées sur la fréquence, initialement développées pour le traitement du langage naturel. Cependant, ces méthodes produisent fréquemment une fragmentation excessive et une perte sémantique, ne parvenant pas à maintenir l'intégrité structurelle et sémantique des concepts matériels. Pour résoudre ce problème, nous proposons MATTER, une nouvelle approche de tokenisation qui intègre des connaissances en matériaux dans le processus de tokenisation. Basé sur MatDetector, entraîné sur notre base de connaissances en matériaux, et une méthode de reclassement qui priorise les concepts matériels lors de la fusion des tokens, MATTER préserve l'intégrité structurelle des concepts matériels identifiés et empêche la fragmentation pendant la tokenisation, garantissant que leur signification sémantique reste intacte. Les résultats expérimentaux démontrent que MATTER surpasse les méthodes de tokenisation existantes, obtenant un gain de performance moyen de 4 % et 2 % dans les tâches de génération et de classification, respectivement. Ces résultats soulignent l'importance des connaissances du domaine pour les stratégies de tokenisation dans le traitement des textes scientifiques. Notre code est disponible à l'adresse suivante : https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF32June 17, 2025