PhysBERT: Un Modello di Embedding Testuale per la Letteratura Scientifica in Fisica
PhysBERT: A Text Embedding Model for Physics Scientific Literature
August 18, 2024
Autori: Thorsten Hellert, João Montenegro, Andrea Pollastro
cs.AI
Abstract
Il linguaggio specializzato e i concetti complessi della fisica rappresentano sfide significative per l'estrazione di informazioni attraverso l'Elaborazione del Linguaggio Naturale (NLP). Al centro delle applicazioni efficaci di NLP si trova il modello di incorporamento del testo, che converte il testo in rappresentazioni vettoriali dense per un'efficiente ricerca di informazioni e analisi semantica. In questo lavoro, introduciamo PhysBERT, il primo modello di incorporamento del testo specifico per la fisica. Pre-addestrato su un corpus curato di 1,2 milioni di articoli di fisica di arXiv e affinato con dati supervisionati, PhysBERT supera i principali modelli generici su compiti specifici della fisica, inclusa l'efficacia nell'affinamento per specifici sottodomini della fisica.
English
The specialized language and complex concepts in physics pose significant
challenges for information extraction through Natural Language Processing
(NLP). Central to effective NLP applications is the text embedding model, which
converts text into dense vector representations for efficient information
retrieval and semantic analysis. In this work, we introduce PhysBERT, the first
physics-specific text embedding model. Pre-trained on a curated corpus of 1.2
million arXiv physics papers and fine-tuned with supervised data, PhysBERT
outperforms leading general-purpose models on physics-specific tasks including
the effectiveness in fine-tuning for specific physics subdomains.