PhysBERT: Een tekstembeddingmodel voor wetenschappelijke literatuur in de natuurkunde
PhysBERT: A Text Embedding Model for Physics Scientific Literature
August 18, 2024
Auteurs: Thorsten Hellert, João Montenegro, Andrea Pollastro
cs.AI
Samenvatting
De gespecialiseerde taal en complexe concepten in de natuurkunde vormen aanzienlijke uitdagingen voor informatie-extractie via Natural Language Processing (NLP). Centraal in effectieve NLP-toepassingen staat het tekstembeddingmodel, dat tekst omzet in dichte vectorrepresentaties voor efficiënte informatie-opsporing en semantische analyse. In dit werk introduceren we PhysBERT, het eerste natuurkunde-specifieke tekstembeddingmodel. Vooraf getraind op een gecureerde corpus van 1,2 miljoen arXiv-natuurkundepapers en verfijnd met begeleide data, presteert PhysBERT beter dan toonaangevende algemene modellen bij natuurkunde-specifieke taken, waaronder de effectiviteit bij het verfijnen voor specifieke natuurkunde-subdomeinen.
English
The specialized language and complex concepts in physics pose significant
challenges for information extraction through Natural Language Processing
(NLP). Central to effective NLP applications is the text embedding model, which
converts text into dense vector representations for efficient information
retrieval and semantic analysis. In this work, we introduce PhysBERT, the first
physics-specific text embedding model. Pre-trained on a curated corpus of 1.2
million arXiv physics papers and fine-tuned with supervised data, PhysBERT
outperforms leading general-purpose models on physics-specific tasks including
the effectiveness in fine-tuning for specific physics subdomains.Summary
AI-Generated Summary