GenoMAS: Een Multi-Agent Framework voor Wetenschappelijke Ontdekking via Code-Gestuurde Genexpressieanalyse

Samenvatting

Genexpressieanalyse is cruciaal voor veel biomedische ontdekkingen, maar het verkrijgen van inzichten uit ruwe transcriptoomgegevens blijft een uitdaging vanwege de complexiteit van meerdere grote, semi-gestructureerde bestanden en de noodzaak van uitgebreide domeinkennis. Huidige automatiseringsbenaderingen worden vaak beperkt door inflexibele workflows die falen in randgevallen of door volledig autonome agents die de benodigde precisie missen voor rigoureus wetenschappelijk onderzoek. GenoMAS kiest een andere aanpak door een team van LLM-gebaseerde wetenschappers te presenteren dat de betrouwbaarheid van gestructureerde workflows combineert met de aanpassingsvermogen van autonome agents. GenoMAS coördineert zes gespecialiseerde LLM-agents via getypeerde berichtuitwisselingsprotocollen, waarbij elk complementaire sterktes bijdraagt aan een gedeeld analytisch canvas. De kern van GenoMAS bestaat uit een begeleid planningsraamwerk: programmeeragents ontvouwen hoog-niveau taakrichtlijnen in Actie-eenheden en kiezen bij elk kruispunt om door te gaan, te herzien, over te slaan of terug te keren, waardoor logische samenhang wordt behouden terwijl soepel wordt omgegaan met de eigenaardigheden van genomische gegevens. Op de GenoTEX-benchmark bereikt GenoMAS een Samengestelde Gelijkeniscorrelatie van 89,13% voor gegevensvoorbewerking en een F_1 van 60,48% voor genidentificatie, wat respectievelijk 10,61% en 16,85% hoger is dan de beste bestaande methoden. Naast metrische resultaten brengt GenoMAS biologisch plausibele gen-fenotype associaties aan het licht die worden ondersteund door de literatuur, terwijl tegelijkertijd rekening wordt gehouden met latente verstorende factoren. De code is beschikbaar op https://github.com/Liu-Hy/GenoMAS.

English

Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F_1 of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.

GenoMAS: Een Multi-Agent Framework voor Wetenschappelijke Ontdekking via Code-Gestuurde Genexpressieanalyse

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

Samenvatting

Support