ChatPaper.aiChatPaper

ドメイン知識を材料トークン化に組み込む

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
著者: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

要旨

材料科学において言語モデルの利用が増加している一方で、典型的なモデルは、自然言語処理向けに開発された頻度中心のトークン化手法に依存している。しかし、これらの手法はしばしば過剰な断片化と意味の喪失を引き起こし、材料概念の構造的および意味的整合性を維持できない。この問題に対処するため、我々はMATTERを提案する。これは材料知識をトークン化に統合する新しいアプローチである。材料知識ベースで訓練されたMatDetectorと、トークン結合において材料概念を優先する再ランキング手法に基づき、MATTERは識別された材料概念の構造的整合性を維持し、トークン化中の断片化を防ぐことで、その意味的意味を損なわない。実験結果は、MATTERが既存のトークン化手法を上回り、生成タスクと分類タスクにおいてそれぞれ平均4%と2%の性能向上を達成することを示している。これらの結果は、科学テキスト処理におけるトークン化戦略におけるドメイン知識の重要性を強調している。我々のコードはhttps://github.com/yerimoh/MATTERで公開されている。
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF32June 17, 2025