HAL 출판 리포지토리에서 텍스트 및 구조화된 데이터 수집
Harvesting Textual and Structured Data from the HAL Publication Repository
July 30, 2024
저자: Francis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary
cs.AI
초록
HAL(Hyper Articles en Ligne)은 프랑스의 국가 출판물 저장소로, 대부분의 고등 교육 및 연구 기관에서 오픈 사이언스 정책을 위해 사용되고 있습니다. 디지털 도서관으로서 HAL은 학술 문서의 풍부한 저장소이지만, 고급 연구를 위한 잠재력은 충분히 활용되지 못해 왔습니다. 우리는 HAL에 제출된 논문의 전체 텍스트와 인용 네트워크 간의 간극을 메우는 독특한 데이터셋인 HALvest를 소개합니다. 우리는 HAL에서 학술 출판물을 필터링하여 약 700,000개의 문서로 구성된 이 데이터셋을 제작했으며, 이는 13개의 식별된 도메인에 걸쳐 34개 언어로 구성되어 언어 모델 학습에 적합하고, 약 165억 개의 토큰(프랑스어 80억 개, 영어 70억 개로 가장 많이 나타남)을 생성합니다. 각 논문의 메타데이터를 인용 네트워크로 변환하여 방향성 이종 그래프를 생성합니다. 이 그래프는 HAL에서 고유하게 식별된 저자와 모든 공개 제출 논문 및 그들의 인용을 포함합니다. 우리는 이 데이터셋을 사용하여 저자 귀속을 위한 기준을 제공하고, 링크 예측을 위한 그래프 표현 학습의 최신 모델들을 구현하며, 생성된 지식 그래프 구조의 유용성에 대해 논의합니다.
English
HAL (Hyper Articles en Ligne) is the French national publication repository,
used by most higher education and research organizations for their open science
policy. As a digital library, it is a rich repository of scholarly documents,
but its potential for advanced research has been underutilized. We present
HALvest, a unique dataset that bridges the gap between citation networks and
the full text of papers submitted on HAL. We craft our dataset by filtering HAL
for scholarly publications, resulting in approximately 700,000 documents,
spanning 34 languages across 13 identified domains, suitable for language model
training, and yielding approximately 16.5 billion tokens (with 8 billion in
French and 7 billion in English, the most represented languages). We transform
the metadata of each paper into a citation network, producing a directed
heterogeneous graph. This graph includes uniquely identified authors on HAL, as
well as all open submitted papers, and their citations. We provide a baseline
for authorship attribution using the dataset, implement a range of
state-of-the-art models in graph representation learning for link prediction,
and discuss the usefulness of our generated knowledge graph structure.Summary
AI-Generated Summary