PhysBERT: 물리 과학 문헌을 위한 텍스트 임베딩 모델
PhysBERT: A Text Embedding Model for Physics Scientific Literature
August 18, 2024
저자: Thorsten Hellert, João Montenegro, Andrea Pollastro
cs.AI
초록
물리학의 전문 용어와 복잡한 개념은 자연어 처리(NLP)를 통한 정보 추출에 상당한 어려움을 제기합니다. 효과적인 NLP 응용 프로그램의 핵심은 텍스트 임베딩 모델로, 이 모델은 텍스트를 밀집 벡터 표현으로 변환하여 효율적인 정보 검색과 의미 분석을 제공합니다. 본 연구에서는 첫 번째 물리학 전용 텍스트 임베딩 모델인 PhysBERT를 소개합니다. 120만 개의 arXiv 물리학 논문으로 구성된 선별된 말뭉치로 사전 훈련된 PhysBERT는 지도 데이터로 세밀하게 조정되어, 특정 물리학 하위 도메인에 대한 세밀한 조정의 효과를 포함한 물리학 특화 작업에서 선도적인 일반 목적 모델을 능가합니다.
English
The specialized language and complex concepts in physics pose significant
challenges for information extraction through Natural Language Processing
(NLP). Central to effective NLP applications is the text embedding model, which
converts text into dense vector representations for efficient information
retrieval and semantic analysis. In this work, we introduce PhysBERT, the first
physics-specific text embedding model. Pre-trained on a curated corpus of 1.2
million arXiv physics papers and fine-tuned with supervised data, PhysBERT
outperforms leading general-purpose models on physics-specific tasks including
the effectiveness in fine-tuning for specific physics subdomains.Summary
AI-Generated Summary