PhysBERT: Um Modelo de Incorporação de Texto para Literatura Científica de Física

Resumo

A linguagem especializada e conceitos complexos em física representam desafios significativos para a extração de informações por meio do Processamento de Linguagem Natural (PLN). Fundamental para aplicações eficazes de PLN é o modelo de incorporação de texto, que converte texto em representações vetoriais densas para recuperação eficiente de informações e análise semântica. Neste trabalho, apresentamos o PhysBERT, o primeiro modelo de incorporação de texto específico para física. Pré-treinado em um corpus selecionado de 1,2 milhão de artigos de física do arXiv e refinado com dados supervisionados, o PhysBERT supera os principais modelos de propósito geral em tarefas específicas de física, incluindo a eficácia no refinamento para subdomínios específicos da física.

English

The specialized language and complex concepts in physics pose significant challenges for information extraction through Natural Language Processing (NLP). Central to effective NLP applications is the text embedding model, which converts text into dense vector representations for efficient information retrieval and semantic analysis. In this work, we introduce PhysBERT, the first physics-specific text embedding model. Pre-trained on a curated corpus of 1.2 million arXiv physics papers and fine-tuned with supervised data, PhysBERT outperforms leading general-purpose models on physics-specific tasks including the effectiveness in fine-tuning for specific physics subdomains.

PhysBERT: Um Modelo de Incorporação de Texto para Literatura Científica de Física

PhysBERT: A Text Embedding Model for Physics Scientific Literature

Resumo

Summary

Support

Support