ChatPaper.aiChatPaper

도메인 지식을 재료 토큰화에 통합하기

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
저자: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

초록

언어 모델이 재료 과학 분야에서 점점 더 활용되고 있지만, 일반적인 모델은 자연어 처리용으로 개발된 빈도 중심의 토큰화 방법에 의존하고 있다. 그러나 이러한 방법은 과도한 분할과 의미 손실을 초래하는 경우가 많아, 재료 개념의 구조적 및 의미적 무결성을 유지하지 못한다. 이러한 문제를 해결하기 위해, 본 연구에서는 재료 지식을 토큰화에 통합한 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 훈련된 MatDetector와 토큰 병합 시 재료 개념을 우선적으로 고려하는 재순위화 방법을 기반으로, MATTER는 식별된 재료 개념의 구조적 무결성을 유지하고 토큰화 과정에서의 분할을 방지함으로써 그 의미가 온전히 보존되도록 한다. 실험 결과, MATTER는 기존 토큰화 방법을 능가하며, 생성 및 분류 작업에서 각각 평균 4%와 2%의 성능 향상을 달성했다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 도메인 지식이 중요함을 강조한다. 본 연구의 코드는 https://github.com/yerimoh/MATTER에서 확인할 수 있다.
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF32June 17, 2025