Интеграция предметных знаний в токенизацию материалов
Incorporating Domain Knowledge into Materials Tokenization
June 9, 2025
Авторы: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI
Аннотация
Хотя языковые модели все чаще используются в материаловедении, типичные модели опираются на методы токенизации, ориентированные на частотность, которые изначально были разработаны для обработки естественного языка. Однако эти методы часто приводят к чрезмерной фрагментации и потере семантики, не сохраняя структурную и семантическую целостность концепций материалов. Для решения этой проблемы мы предлагаем MATTER — новый подход к токенизации, который интегрирует знания о материалах в процесс токенизации. Основанный на MatDetector, обученном на нашей базе знаний о материалах, и методе переранжирования, который отдает приоритет концепциям материалов при объединении токенов, MATTER сохраняет структурную целостность идентифицированных концепций материалов и предотвращает фрагментацию в процессе токенизации, обеспечивая сохранение их семантического значения. Результаты экспериментов показывают, что MATTER превосходит существующие методы токенизации, достигая среднего прироста производительности на 4% и 2% в задачах генерации и классификации соответственно. Эти результаты подчеркивают важность предметных знаний для стратегий токенизации при обработке научных текстов. Наш код доступен по адресу https://github.com/yerimoh/MATTER.
English
While language models are increasingly utilized in materials science, typical
models rely on frequency-centric tokenization methods originally developed for
natural language processing. However, these methods frequently produce
excessive fragmentation and semantic loss, failing to maintain the structural
and semantic integrity of material concepts. To address this issue, we propose
MATTER, a novel tokenization approach that integrates material knowledge into
tokenization. Based on MatDetector trained on our materials knowledge base and
a re-ranking method prioritizing material concepts in token merging, MATTER
maintains the structural integrity of identified material concepts and prevents
fragmentation during tokenization, ensuring their semantic meaning remains
intact. The experimental results demonstrate that MATTER outperforms existing
tokenization methods, achieving an average performance gain of 4% and 2%
in the generation and classification tasks, respectively. These results
underscore the importance of domain knowledge for tokenization strategies in
scientific text processing. Our code is available at
https://github.com/yerimoh/MATTER