ChatPaper.aiChatPaper

ComProScanner: Un marco basado en agentes múltiples para la extracción estructurada de datos composición-propiedad de la literatura científica

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
Autores: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

Resumen

Desde la aparición de diversos modelos de lenguaje grande preentrenados, la extracción de conocimiento estructurado a partir de texto científico ha experimentado un cambio revolucionario en comparación con las técnicas tradicionales de aprendizaje automático o procesamiento del lenguaje natural. A pesar de estos avances, las herramientas automatizadas accesibles que permitan a los usuarios construir, validar y visualizar conjuntos de datos a partir de la extracción de literatura científica siguen siendo escasas. Por ello, hemos desarrollado ComProScanner, una plataforma autónoma de múltiples agentes que facilita la extracción, validación, clasificación y visualización de composiciones y propiedades químicas legibles por máquina, integrada con datos de síntesis de artículos de revistas para la creación integral de bases de datos. Evaluamos nuestro marco de trabajo utilizando 100 artículos de revistas frente a 10 modelos de lenguaje grande diferentes, incluyendo tanto modelos de código abierto como propietarios, para extraer composiciones altamente complejas asociadas a materiales piezoeléctricos cerámicos y los correspondientes coeficientes de deformación piezoeléctrica (d33), motivados por la falta de un conjunto de datos extenso para dichos materiales. DeepSeek-V3-0324 superó a todos los modelos con una precisión general significativa de 0.82. Este marco de trabajo proporciona un paquete sencillo, fácil de usar y listo para utilizar, destinado a extraer datos experimentales altamente complejos enterrados en la literatura para construir conjuntos de datos de aprendizaje automático o aprendizaje profundo.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025