ComProScanner: un framework basato su agenti multipli per l'estrazione strutturata di dati composizione-proprietà dalla letteratura scientifica
ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature
October 23, 2025
Autori: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI
Abstract
Dall'avvento di vari modelli linguistici pre-addestrati di grandi dimensioni, l'estrazione di conoscenze strutturate da testi scientifici ha subito un cambiamento rivoluzionario rispetto alle tecniche tradizionali di apprendimento automatico o di elaborazione del linguaggio naturale. Nonostante questi progressi, gli strumenti automatizzati accessibili che consentono agli utenti di costruire, convalidare e visualizzare dataset derivanti dall'estrazione della letteratura scientifica rimangono scarsi. Abbiamo quindi sviluppato ComProScanner, una piattaforma multi-agente autonoma che facilita l'estrazione, la convalida, la classificazione e la visualizzazione di composizioni e proprietà chimiche in formato machine-readable, integrata con dati di sintesi da articoli di riviste per la creazione di database completi. Abbiamo valutato il nostro framework utilizzando 100 articoli di riviste e confrontando 10 diversi LLM, inclusi sia modelli open-source che proprietari, per estrarre composizioni altamente complesse associate a materiali ceramici piezoelettrici e i corrispondenti coefficienti di deformazione piezoelettrica (d33), motivati dalla mancanza di un ampio dataset per tali materiali. DeepSeek-V3-0324 ha superato tutti i modelli con un'accuratezza complessiva significativa di 0,82. Questo framework fornisce un pacchetto semplice, user-friendly e immediatamente utilizzabile per estrarre dati sperimentali altamente complessi sepolti nella letteratura al fine di costruire dataset per l'apprendimento automatico o l'apprendimento profondo.
English
Since the advent of various pre-trained large language models, extracting
structured knowledge from scientific text has experienced a revolutionary
change compared with traditional machine learning or natural language
processing techniques. Despite these advances, accessible automated tools that
allow users to construct, validate, and visualise datasets from scientific
literature extraction remain scarce. We therefore developed ComProScanner, an
autonomous multi-agent platform that facilitates the extraction, validation,
classification, and visualisation of machine-readable chemical compositions and
properties, integrated with synthesis data from journal articles for
comprehensive database creation. We evaluated our framework using 100 journal
articles against 10 different LLMs, including both open-source and proprietary
models, to extract highly complex compositions associated with ceramic
piezoelectric materials and corresponding piezoelectric strain coefficients
(d33), motivated by the lack of a large dataset for such materials.
DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of
0.82. This framework provides a simple, user-friendly, readily-usable package
for extracting highly complex experimental data buried in the literature to
build machine learning or deep learning datasets.