Integrazione della Conoscenza di Dominio nella Tokenizzazione dei Materiali
Incorporating Domain Knowledge into Materials Tokenization
June 9, 2025
Autori: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI
Abstract
Mentre i modelli linguistici sono sempre più utilizzati nella scienza dei materiali, i modelli tipici si basano su metodi di tokenizzazione centrati sulla frequenza originariamente sviluppati per l'elaborazione del linguaggio naturale. Tuttavia, questi metodi spesso producono una frammentazione eccessiva e una perdita semantica, non riuscendo a mantenere l'integrità strutturale e semantica dei concetti relativi ai materiali. Per affrontare questo problema, proponiamo MATTER, un nuovo approccio di tokenizzazione che integra la conoscenza dei materiali nel processo di tokenizzazione. Basato su MatDetector addestrato sulla nostra base di conoscenza dei materiali e su un metodo di riordinamento che privilegia i concetti relativi ai materiali nella fusione dei token, MATTER mantiene l'integrità strutturale dei concetti di materiale identificati e previene la frammentazione durante la tokenizzazione, garantendo che il loro significato semantico rimanga intatto. I risultati sperimentali dimostrano che MATTER supera i metodi di tokenizzazione esistenti, ottenendo un miglioramento medio delle prestazioni del 4% e del 2% rispettivamente nei compiti di generazione e classificazione. Questi risultati sottolineano l'importanza della conoscenza del dominio per le strategie di tokenizzazione nell'elaborazione di testi scientifici. Il nostro codice è disponibile all'indirizzo https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical
models rely on frequency-centric tokenization methods originally developed for
natural language processing. However, these methods frequently produce
excessive fragmentation and semantic loss, failing to maintain the structural
and semantic integrity of material concepts. To address this issue, we propose
MATTER, a novel tokenization approach that integrates material knowledge into
tokenization. Based on MatDetector trained on our materials knowledge base and
a re-ranking method prioritizing material concepts in token merging, MATTER
maintains the structural integrity of identified material concepts and prevents
fragmentation during tokenization, ensuring their semantic meaning remains
intact. The experimental results demonstrate that MATTER outperforms existing
tokenization methods, achieving an average performance gain of 4% and 2%
in the generation and classification tasks, respectively. These results
underscore the importance of domain knowledge for tokenization strategies in
scientific text processing. Our code is available at
https://github.com/yerimoh/MATTER