PhysBERT: Um Modelo de Incorporação de Texto para Literatura Científica de Física
PhysBERT: A Text Embedding Model for Physics Scientific Literature
August 18, 2024
Autores: Thorsten Hellert, João Montenegro, Andrea Pollastro
cs.AI
Resumo
A linguagem especializada e conceitos complexos em física representam desafios significativos para a extração de informações por meio do Processamento de Linguagem Natural (PLN). Fundamental para aplicações eficazes de PLN é o modelo de incorporação de texto, que converte texto em representações vetoriais densas para recuperação eficiente de informações e análise semântica. Neste trabalho, apresentamos o PhysBERT, o primeiro modelo de incorporação de texto específico para física. Pré-treinado em um corpus selecionado de 1,2 milhão de artigos de física do arXiv e refinado com dados supervisionados, o PhysBERT supera os principais modelos de propósito geral em tarefas específicas de física, incluindo a eficácia no refinamento para subdomínios específicos da física.
English
The specialized language and complex concepts in physics pose significant
challenges for information extraction through Natural Language Processing
(NLP). Central to effective NLP applications is the text embedding model, which
converts text into dense vector representations for efficient information
retrieval and semantic analysis. In this work, we introduce PhysBERT, the first
physics-specific text embedding model. Pre-trained on a curated corpus of 1.2
million arXiv physics papers and fine-tuned with supervised data, PhysBERT
outperforms leading general-purpose models on physics-specific tasks including
the effectiveness in fine-tuning for specific physics subdomains.Summary
AI-Generated Summary