ChatPaper.aiChatPaper

ComProScanner: мультиагентная система для извлечения структурированных данных "состав-свойство" из научной литературы

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
Авторы: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

Аннотация

С появлением различных предварительно обученных больших языковых моделей извлечение структурированных знаний из научных текстов претерпело революционные изменения по сравнению с традиционными методами машинного обучения или обработки естественного языка. Несмотря на эти достижения, доступные автоматизированные инструменты, позволяющие пользователям создавать, проверять и визуализировать наборы данных, извлеченные из научной литературы, остаются дефицитом. Поэтому мы разработали ComProScanner — автономную мультиагентную платформу, которая обеспечивает извлечение, проверку, классификацию и визуализацию машиночитаемых химических составов и свойств, интегрированных с данными о синтезе из научных статей для создания комплексных баз данных. Мы оценили нашу платформу на 100 научных статьях с использованием 10 различных БЯМ, включая как модели с открытым исходным кодом, так и проприетарные, для извлечения высокосложных составов, связанных с керамическими пьезоэлектрическими материалами, и соответствующих коэффициентов пьезоэлектрической деформации (d33), что было мотивировано отсутствием крупного набора данных для таких материалов. Модель DeepSeek-V3-0324 превзошла все модели с общей точностью 0.82. Данная платформа представляет собой простой, удобный и готовый к использованию пакет для извлечения высокосложных экспериментальных данных, скрытых в литературе, с целью построения наборов данных для машинного или глубокого обучения.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025