ComProScanner: 과학 논문에서 조성-성능 구조화 데이터 추출을 위한 다중 에이전트 기반 프레임워크
ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature
October 23, 2025
저자: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI
초록
다양한 사전 학습된 대규모 언어 모델의 등장 이후, 과학 텍스트로부터 구조화된 지식을 추출하는 분야는 기존의 전통적인 기계 학습이나 자연어 처리 기술과 비교하여 혁명적인 변화를 겪었습니다. 이러한 발전에도 불구하고, 사용자가 과학 문헌에서 추출한 데이터셋을 구축하고 검증하며 시각화할 수 있는 접근성 높은 자동화 도구는 여전히 부족한 실정입니다. 이에 저희는 기계 판독 가능한 화학적 조성과 특성, 그리고 합성 데이터를 저널 논문에서 추출하여 포괄적인 데이터베이스 생성을 위해 통합하는 작업을 지원하는 자율 다중 에이전트 플랫폼인 ComProScanner를 개발했습니다. 본 프레임워크는 세라믹 압전 재료와 관련된 매우 복잡한 조성 및 대응하는 압전 변형 계수(d33)를 추출하는 데 있어, 이러한 재료에 대한 대규모 데이터셋이 부족하다는 점에 동기를 부여받아 100개의 저널 논문을 대상으로 오픈소스와 상용 모델을 포함한 10가지 다른 LLM을 비교 평가했습니다. DeepSeek-V3-0324는 0.82라는 유의미한 전체 정확도로 모든 모델을 능가했습니다. 이 프레임워크는 문헌에 숨겨진 매우 복잡한 실험 데이터를 추출하여 기계 학습 또는 딥러닝 데이터셋을 구축하기 위한 간단하고 사용자 친화적이며 즉시 사용 가능한 패키지를 제공합니다.
English
Since the advent of various pre-trained large language models, extracting
structured knowledge from scientific text has experienced a revolutionary
change compared with traditional machine learning or natural language
processing techniques. Despite these advances, accessible automated tools that
allow users to construct, validate, and visualise datasets from scientific
literature extraction remain scarce. We therefore developed ComProScanner, an
autonomous multi-agent platform that facilitates the extraction, validation,
classification, and visualisation of machine-readable chemical compositions and
properties, integrated with synthesis data from journal articles for
comprehensive database creation. We evaluated our framework using 100 journal
articles against 10 different LLMs, including both open-source and proprietary
models, to extract highly complex compositions associated with ceramic
piezoelectric materials and corresponding piezoelectric strain coefficients
(d33), motivated by the lack of a large dataset for such materials.
DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of
0.82. This framework provides a simple, user-friendly, readily-usable package
for extracting highly complex experimental data buried in the literature to
build machine learning or deep learning datasets.