도메인 지식을 재료 토큰화에 통합하기
Incorporating Domain Knowledge into Materials Tokenization
June 9, 2025
저자: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI
초록
언어 모델이 재료 과학 분야에서 점점 더 활용되고 있지만, 일반적인 모델은 자연어 처리용으로 개발된 빈도 중심의 토큰화 방법에 의존하고 있다. 그러나 이러한 방법은 과도한 분할과 의미 손실을 초래하는 경우가 많아, 재료 개념의 구조적 및 의미적 무결성을 유지하지 못한다. 이러한 문제를 해결하기 위해, 본 연구에서는 재료 지식을 토큰화에 통합한 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 훈련된 MatDetector와 토큰 병합 시 재료 개념을 우선적으로 고려하는 재순위화 방법을 기반으로, MATTER는 식별된 재료 개념의 구조적 무결성을 유지하고 토큰화 과정에서의 분할을 방지함으로써 그 의미가 온전히 보존되도록 한다. 실험 결과, MATTER는 기존 토큰화 방법을 능가하며, 생성 및 분류 작업에서 각각 평균 4%와 2%의 성능 향상을 달성했다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 도메인 지식이 중요함을 강조한다. 본 연구의 코드는 https://github.com/yerimoh/MATTER에서 확인할 수 있다.
English
While language models are increasingly utilized in materials science, typical
models rely on frequency-centric tokenization methods originally developed for
natural language processing. However, these methods frequently produce
excessive fragmentation and semantic loss, failing to maintain the structural
and semantic integrity of material concepts. To address this issue, we propose
MATTER, a novel tokenization approach that integrates material knowledge into
tokenization. Based on MatDetector trained on our materials knowledge base and
a re-ranking method prioritizing material concepts in token merging, MATTER
maintains the structural integrity of identified material concepts and prevents
fragmentation during tokenization, ensuring their semantic meaning remains
intact. The experimental results demonstrate that MATTER outperforms existing
tokenization methods, achieving an average performance gain of 4% and 2%
in the generation and classification tasks, respectively. These results
underscore the importance of domain knowledge for tokenization strategies in
scientific text processing. Our code is available at
https://github.com/yerimoh/MATTER