ChatPaper.aiChatPaper

Einbeziehung von Domänenwissen in die Materialtokenisierung

Incorporating Domain Knowledge into Materials Tokenization

June 9, 2025
papers.authors: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
cs.AI

papers.abstract

Während Sprachmodelle zunehmend in der Materialwissenschaft eingesetzt werden, basieren typische Modelle auf frequenzzentrierten Tokenisierungsmethoden, die ursprünglich für die natürliche Sprachverarbeitung entwickelt wurden. Diese Methoden führen jedoch häufig zu übermäßiger Fragmentierung und semantischem Verlust, wodurch die strukturelle und semantische Integrität von Materialkonzepten nicht gewährleistet wird. Um dieses Problem zu lösen, schlagen wir MATTER vor, einen neuartigen Tokenisierungsansatz, der Materialwissen in die Tokenisierung integriert. Basierend auf MatDetector, der auf unserer Materialwissensdatenbank trainiert wurde, und einer Neubewertungsmethode, die Materialkonzepte bei der Tokenzusammenführung priorisiert, bewahrt MATTER die strukturelle Integrität identifizierter Materialkonzepte und verhindert Fragmentierung während der Tokenisierung, wodurch ihre semantische Bedeutung erhalten bleibt. Die experimentellen Ergebnisse zeigen, dass MATTER bestehende Tokenisierungsmethoden übertrifft und durchschnittliche Leistungssteigerungen von 4 % bzw. 2 % bei Generierungs- und Klassifizierungsaufgaben erzielt. Diese Ergebnisse unterstreichen die Bedeutung von Domänenwissen für Tokenisierungsstrategien in der wissenschaftlichen Textverarbeitung. Unser Code ist unter https://github.com/yerimoh/MATTER verfügbar.
English
While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of 4% and 2% in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
PDF32June 17, 2025