ChatPaper.aiChatPaper

Integrazione della Conoscenza di Dominio nella Tokenizzazione dei Materiali

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
Autori: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

Abstract

Mentre i modelli linguistici sono sempre più utilizzati nella scienza dei materiali, i modelli tipici si basano su metodi di tokenizzazione centrati sulla frequenza originariamente sviluppati per l'elaborazione del linguaggio naturale. Tuttavia, questi metodi spesso producono una frammentazione eccessiva e una perdita semantica, non riuscendo a mantenere l'integrità strutturale e semantica dei concetti relativi ai materiali. Per affrontare questo problema, proponiamo MATTER, un nuovo approccio di tokenizzazione che integra la conoscenza dei materiali nel processo di tokenizzazione. Basato su MatDetector addestrato sulla nostra base di conoscenza dei materiali e su un metodo di riordinamento che privilegia i concetti relativi ai materiali nella fusione dei token, MATTER mantiene l'integrità strutturale dei concetti di materiale identificati e previene la frammentazione durante la tokenizzazione, garantendo che il loro significato semantico rimanga intatto. I risultati sperimentali dimostrano che MATTER supera i metodi di tokenizzazione esistenti, ottenendo un miglioramento medio delle prestazioni del 4% e del 2% rispettivamente nei compiti di generazione e classificazione. Questi risultati sottolineano l'importanza della conoscenza del dominio per le strategie di tokenizzazione nell'elaborazione di testi scientifici. Il nostro codice è disponibile all'indirizzo https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF42June 17, 2025