Incorporando Conhecimento de Domínio na Tokenização de Materiais
Incorporating Domain Knowledge into Materials Tokenization
June 9, 2025
Autores: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI
Resumo
Embora os modelos de linguagem sejam cada vez mais utilizados na ciência dos materiais, os modelos típicos dependem de métodos de tokenização centrados em frequência, originalmente desenvolvidos para processamento de linguagem natural. No entanto, esses métodos frequentemente produzem fragmentação excessiva e perda semântica, falhando em manter a integridade estrutural e semântica dos conceitos de materiais. Para resolver esse problema, propomos o MATTER, uma nova abordagem de tokenização que integra conhecimento de materiais no processo de tokenização. Baseado no MatDetector, treinado em nossa base de conhecimento de materiais, e em um método de reclassificação que prioriza conceitos de materiais na fusão de tokens, o MATTER mantém a integridade estrutural dos conceitos de materiais identificados e evita a fragmentação durante a tokenização, garantindo que seu significado semântico permaneça intacto. Os resultados experimentais demonstram que o MATTER supera os métodos de tokenização existentes, alcançando um ganho médio de desempenho de 4% e 2% nas tarefas de geração e classificação, respectivamente. Esses resultados destacam a importância do conhecimento de domínio para estratégias de tokenização no processamento de textos científicos. Nosso código está disponível em https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical
models rely on frequency-centric tokenization methods originally developed for
natural language processing. However, these methods frequently produce
excessive fragmentation and semantic loss, failing to maintain the structural
and semantic integrity of material concepts. To address this issue, we propose
MATTER, a novel tokenization approach that integrates material knowledge into
tokenization. Based on MatDetector trained on our materials knowledge base and
a re-ranking method prioritizing material concepts in token merging, MATTER
maintains the structural integrity of identified material concepts and prevents
fragmentation during tokenization, ensuring their semantic meaning remains
intact. The experimental results demonstrate that MATTER outperforms existing
tokenization methods, achieving an average performance gain of 4% and 2%
in the generation and classification tasks, respectively. These results
underscore the importance of domain knowledge for tokenization strategies in
scientific text processing. Our code is available at
https://github.com/yerimoh/MATTER