ChatPaper.aiChatPaper

Het integreren van domeinkennis in materialentokenisatie

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
Auteurs: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

Samenvatting

Hoewel taalmodelen steeds vaker worden gebruikt in de materiaalkunde, vertrouwen typische modellen op frequentiegerichte tokenisatiemethoden die oorspronkelijk zijn ontwikkeld voor natuurlijke taalverwerking. Deze methoden leiden echter vaak tot overmatige fragmentatie en semantisch verlies, waardoor de structurele en semantische integriteit van materiaalconcepten niet behouden blijft. Om dit probleem aan te pakken, stellen we MATTER voor, een nieuwe tokenisatiebenadering die materiaalkennis integreert in de tokenisatie. Gebaseerd op MatDetector, getraind op onze materiaalkennisbank, en een herrangschikkingsmethode die materiaalconcepten prioriteert bij het samenvoegen van tokens, behoudt MATTER de structurele integriteit van geïdentificeerde materiaalconcepten en voorkomt het fragmentatie tijdens de tokenisatie, waardoor hun semantische betekenis intact blijft. De experimentele resultaten tonen aan dat MATTER bestaande tokenisatiemethoden overtreft, met een gemiddelde prestatieverbetering van 4% en 2% in respectievelijk de generatie- en classificatietaken. Deze resultaten benadrukken het belang van domeinkennis voor tokenisatiestrategieën bij de verwerking van wetenschappelijke teksten. Onze code is beschikbaar op https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF42June 17, 2025