Incorporación del Conocimiento del Dominio en la Tokenización de Materiales
Incorporating Domain Knowledge into Materials Tokenization
June 9, 2025
Autores: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI
Resumen
Si bien los modelos de lenguaje se utilizan cada vez más en la ciencia de materiales, los modelos típicos dependen de métodos de tokenización centrados en la frecuencia, desarrollados originalmente para el procesamiento del lenguaje natural. Sin embargo, estos métodos a menudo producen una fragmentación excesiva y una pérdida semántica, lo que impide mantener la integridad estructural y semántica de los conceptos materiales. Para abordar este problema, proponemos MATTER, un enfoque novedoso de tokenización que integra el conocimiento de materiales en la tokenización. Basado en MatDetector, entrenado en nuestra base de conocimientos de materiales, y un método de reordenación que prioriza los conceptos materiales en la fusión de tokens, MATTER mantiene la integridad estructural de los conceptos materiales identificados y evita la fragmentación durante la tokenización, asegurando que su significado semántico permanezca intacto. Los resultados experimentales demuestran que MATTER supera a los métodos de tokenización existentes, logrando una mejora promedio del 4% y del 2% en las tareas de generación y clasificación, respectivamente. Estos resultados subrayan la importancia del conocimiento del dominio para las estrategias de tokenización en el procesamiento de textos científicos. Nuestro código está disponible en https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical
models rely on frequency-centric tokenization methods originally developed for
natural language processing. However, these methods frequently produce
excessive fragmentation and semantic loss, failing to maintain the structural
and semantic integrity of material concepts. To address this issue, we propose
MATTER, a novel tokenization approach that integrates material knowledge into
tokenization. Based on MatDetector trained on our materials knowledge base and
a re-ranking method prioritizing material concepts in token merging, MATTER
maintains the structural integrity of identified material concepts and prevents
fragmentation during tokenization, ensuring their semantic meaning remains
intact. The experimental results demonstrate that MATTER outperforms existing
tokenization methods, achieving an average performance gain of 4% and 2%
in the generation and classification tasks, respectively. These results
underscore the importance of domain knowledge for tokenization strategies in
scientific text processing. Our code is available at
https://github.com/yerimoh/MATTER