ChatPaper.aiChatPaper

ComProScanner : un cadre multi-agent pour l'extraction structurée de données composition-propriété à partir de la littérature scientifique

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
papers.authors: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

papers.abstract

Depuis l’avènement des grands modèles de langage pré-entraînés, l’extraction de connaissances structurées à partir de textes scientifiques a connu un changement révolutionnaire par rapport aux techniques traditionnelles d’apprentissage automatique ou de traitement du langage naturel. Malgré ces avancées, les outils automatisés accessibles permettant aux utilisateurs de construire, valider et visualiser des jeux de données issus de l’extraction de la littérature scientifique restent rares. Nous avons donc développé ComProScanner, une plateforme multi-agents autonome qui facilite l’extraction, la validation, la classification et la visualisation de compositions et propriétés chimiques exploitables par machine, intégrant des données de synthèse issues d’articles scientifiques pour la création de bases de données complètes. Nous avons évalué notre cadre à l’aide de 100 articles scientifiques en comparant 10 modèles de langage étendus différents, incluant des modèles open source et propriétaires, afin d’extraire des compositions hautement complexes associées aux matériaux céramiques piézoélectriques et leurs coefficients de déformation piézoélectrique correspondants (d33), motivés par l’absence d’un jeu de données volumineux pour ces matériaux. DeepSeek-V3-0324 a surpassé tous les modèles avec une précision globale significative de 0,82. Ce cadre offre une solution simple, conviviale et immédiatement utilisable pour extraire des données expérimentales hautement complexes enfouies dans la littérature, en vue de constituer des jeux de données pour l’apprentissage automatique ou profond.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025