ComProScanner: Uma estrutura baseada em multiagentes para extração estruturada de dados composição-propriedade da literatura científica
ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature
October 23, 2025
Autores: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI
Resumo
Desde o advento de vários modelos de linguagem grandes pré-treinados, a extração de conhecimento estruturado a partir de texto científico passou por uma mudança revolucionária em comparação com as técnicas tradicionais de aprendizagem de máquina ou processamento de linguagem natural. Apesar desses avanços, ferramentas automatizadas acessíveis que permitam aos usuários construir, validar e visualizar conjuntos de dados a partir da extração da literatura científica permanecem escassas. Por conseguinte, desenvolvemos o ComProScanner, uma plataforma multiagente autónoma que facilita a extração, validação, classificação e visualização de composições e propriedades químicas legíveis por máquina, integrada com dados de síntese de artigos de periódicos para a criação abrangente de bases de dados. Avaliámos a nossa estrutura utilizando 100 artigos de periódicos contra 10 LLMs diferentes, incluindo modelos de código aberto e proprietários, para extrair composições altamente complexas associadas a materiais piezoelétricos cerâmicos e os correspondentes coeficientes de deformação piezoelétrica (d33), motivados pela falta de um grande conjunto de dados para tais materiais. O DeepSeek-V3-0324 superou todos os modelos com uma precisão geral significativa de 0,82. Esta estrutura fornece um pacote simples, de fácil utilização e pronto a ser usado para extrair dados experimentais altamente complexos enterrados na literatura, para a construção de conjuntos de dados de aprendizagem de máquina ou aprendizagem profunda.
English
Since the advent of various pre-trained large language models, extracting
structured knowledge from scientific text has experienced a revolutionary
change compared with traditional machine learning or natural language
processing techniques. Despite these advances, accessible automated tools that
allow users to construct, validate, and visualise datasets from scientific
literature extraction remain scarce. We therefore developed ComProScanner, an
autonomous multi-agent platform that facilitates the extraction, validation,
classification, and visualisation of machine-readable chemical compositions and
properties, integrated with synthesis data from journal articles for
comprehensive database creation. We evaluated our framework using 100 journal
articles against 10 different LLMs, including both open-source and proprietary
models, to extract highly complex compositions associated with ceramic
piezoelectric materials and corresponding piezoelectric strain coefficients
(d33), motivated by the lack of a large dataset for such materials.
DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of
0.82. This framework provides a simple, user-friendly, readily-usable package
for extracting highly complex experimental data buried in the literature to
build machine learning or deep learning datasets.