ChatPaper.aiChatPaper

ComProScanner: un framework basato su agenti multipli per l'estrazione strutturata di dati composizione-proprietà dalla letteratura scientifica

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
Autori: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

Abstract

Dall'avvento di vari modelli linguistici pre-addestrati di grandi dimensioni, l'estrazione di conoscenze strutturate da testi scientifici ha subito un cambiamento rivoluzionario rispetto alle tecniche tradizionali di apprendimento automatico o di elaborazione del linguaggio naturale. Nonostante questi progressi, gli strumenti automatizzati accessibili che consentono agli utenti di costruire, convalidare e visualizzare dataset derivanti dall'estrazione della letteratura scientifica rimangono scarsi. Abbiamo quindi sviluppato ComProScanner, una piattaforma multi-agente autonoma che facilita l'estrazione, la convalida, la classificazione e la visualizzazione di composizioni e proprietà chimiche in formato machine-readable, integrata con dati di sintesi da articoli di riviste per la creazione di database completi. Abbiamo valutato il nostro framework utilizzando 100 articoli di riviste e confrontando 10 diversi LLM, inclusi sia modelli open-source che proprietari, per estrarre composizioni altamente complesse associate a materiali ceramici piezoelettrici e i corrispondenti coefficienti di deformazione piezoelettrica (d33), motivati dalla mancanza di un ampio dataset per tali materiali. DeepSeek-V3-0324 ha superato tutti i modelli con un'accuratezza complessiva significativa di 0,82. Questo framework fornisce un pacchetto semplice, user-friendly e immediatamente utilizzabile per estrarre dati sperimentali altamente complessi sepolti nella letteratura al fine di costruire dataset per l'apprendimento automatico o l'apprendimento profondo.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025