ChatPaper.aiChatPaper

ComProScanner: Een op meerdere agenten gebaseerd raamwerk voor het extraheren van gestructureerde compositie-eigenschapsgegevens uit wetenschappelijke literatuur

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

October 23, 2025
Auteurs: Aritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni
cs.AI

Samenvatting

Sinds de opkomst van verschillende vooraf getrainde grote taalmodellen heeft het extraheren van gestructureerde kennis uit wetenschappelijke tekst een revolutionaire verandering ondergaan in vergelijking met traditionele machine learning- of natuurlijke-taalverwerkingstechnieken. Ondanks deze vooruitgang blijven toegankelijke geautomatiseerde tools die gebruikers in staat stellen datasets te construeren, valideren en visualiseren op basis van extractie uit wetenschappelijke literatuur schaars. Daarom ontwikkelden wij ComProScanner, een autonoom multi-agentplatform dat de extractie, validatie, classificatie en visualisatie van machineleesbare chemische samenstellingen en eigenschappen vergemakkelijkt, geïntegreerd met synthesedata uit wetenschappelijke artikelen voor de creatie van uitgebreide databases. Wij evalueerden ons raamwerk met behulp van 100 wetenschappelijke artikelen tegen 10 verschillende grote taalmodellen, zowel open-source als propriëtaire modellen, om zeer complexe samenstellingen gerelateerd aan keramische piëzo-elektrische materialen en bijbehorende piëzo-elektrische vervormingscoëfficiënten (d33) te extraheren, gemotiveerd door het ontbreken van een grote dataset voor dergelijke materialen. DeepSeek-V3-0324 presteerde beter dan alle modellen met een significante algemene nauwkeurigheid van 0,82. Dit raamwerk biedt een eenvoudig, gebruiksvriendelijk, direct bruikbaar pakket voor het extraheren van zeer complexe experimentele data die verborgen zijn in de literatuur, om datasets voor machine learning of deep learning op te bouwen.
English
Since the advent of various pre-trained large language models, extracting structured knowledge from scientific text has experienced a revolutionary change compared with traditional machine learning or natural language processing techniques. Despite these advances, accessible automated tools that allow users to construct, validate, and visualise datasets from scientific literature extraction remain scarce. We therefore developed ComProScanner, an autonomous multi-agent platform that facilitates the extraction, validation, classification, and visualisation of machine-readable chemical compositions and properties, integrated with synthesis data from journal articles for comprehensive database creation. We evaluated our framework using 100 journal articles against 10 different LLMs, including both open-source and proprietary models, to extract highly complex compositions associated with ceramic piezoelectric materials and corresponding piezoelectric strain coefficients (d33), motivated by the lack of a large dataset for such materials. DeepSeek-V3-0324 outperformed all models with a significant overall accuracy of 0.82. This framework provides a simple, user-friendly, readily-usable package for extracting highly complex experimental data buried in the literature to build machine learning or deep learning datasets.
PDF22December 2, 2025