ChatPaper.aiChatPaper

ComProScanner: Ein Multi-Agenten-basierter Rahmenwerk zur Extraktion von Zusammensetzungs-Eigenschafts-strukturierten Daten aus wissenschaftlicher Literatur

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
papers.authors: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

papers.abstract

Seit dem Aufkommen verschiedener vortrainierter großer Sprachmodelle hat die Extraktion strukturierten Wissens aus wissenschaftlichen Texten einen revolutionären Wandel im Vergleich zu traditionellen Methoden des maschinellen Lernens oder der natürlichen Sprachverarbeitung erfahren. Trotz dieser Fortschritte bleiben zugängliche, automatisierte Werkzeuge, die Nutzern die Konstruktion, Validierung und Visualisierung von Datensätzen aus wissenschaftlicher Literaturextraktion ermöglichen, rar. Daher entwickelten wir ComProScanner, eine autonome Multi-Agenten-Plattform, die die Extraktion, Validierung, Klassifizierung und Visualisierung maschinenlesbarer chemischer Zusammensetzungen und Eigenschaften erleichtert – integriert mit Synthesedaten aus Fachartikeln zur umfassenden Datenbankerstellung. Wir evaluierten unser Framework anhand von 100 Fachartikeln mit 10 verschiedenen LLMs, einschließlich Open-Source- und proprietären Modellen, um hochkomplexe Zusammensetzungen keramischer piezoelektrischer Materialien und entsprechende piezoelektrische Spannungskoeffizienten (d33) zu extrahieren, motiviert durch das Fehlen eines großen Datensatzes für solche Materialien. DeepSeek-V3-0324 übertraf alle Modelle mit einer signifikanten Gesamtgenauigkeit von 0,82. Dieses Framework bietet ein einfaches, benutzerfreundliches, sofort einsetzbares Paket zur Extraktion hochkomplexer experimenteller Daten aus der Literatur, um Datensätze für maschinelles Lernen oder Deep Learning aufzubauen.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025