PhysBERT: Un Modello di Embedding Testuale per la Letteratura Scientifica in Fisica

Abstract

Il linguaggio specializzato e i concetti complessi della fisica rappresentano sfide significative per l'estrazione di informazioni attraverso l'Elaborazione del Linguaggio Naturale (NLP). Al centro delle applicazioni efficaci di NLP si trova il modello di incorporamento del testo, che converte il testo in rappresentazioni vettoriali dense per un'efficiente ricerca di informazioni e analisi semantica. In questo lavoro, introduciamo PhysBERT, il primo modello di incorporamento del testo specifico per la fisica. Pre-addestrato su un corpus curato di 1,2 milioni di articoli di fisica di arXiv e affinato con dati supervisionati, PhysBERT supera i principali modelli generici su compiti specifici della fisica, inclusa l'efficacia nell'affinamento per specifici sottodomini della fisica.

English

The specialized language and complex concepts in physics pose significant challenges for information extraction through Natural Language Processing (NLP). Central to effective NLP applications is the text embedding model, which converts text into dense vector representations for efficient information retrieval and semantic analysis. In this work, we introduce PhysBERT, the first physics-specific text embedding model. Pre-trained on a curated corpus of 1.2 million arXiv physics papers and fine-tuned with supervised data, PhysBERT outperforms leading general-purpose models on physics-specific tasks including the effectiveness in fine-tuning for specific physics subdomains.

PhysBERT: Un Modello di Embedding Testuale per la Letteratura Scientifica in Fisica

PhysBERT: A Text Embedding Model for Physics Scientific Literature

Abstract

Support