GenoMAS: Een Multi-Agent Framework voor Wetenschappelijke Ontdekking via Code-Gestuurde Genexpressieanalyse
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
Auteurs: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
Samenvatting
Genexpressieanalyse is cruciaal voor veel biomedische ontdekkingen, maar het verkrijgen van inzichten uit ruwe transcriptoomgegevens blijft een uitdaging vanwege de complexiteit van meerdere grote, semi-gestructureerde bestanden en de noodzaak van uitgebreide domeinkennis. Huidige automatiseringsbenaderingen worden vaak beperkt door inflexibele workflows die falen in randgevallen of door volledig autonome agents die de benodigde precisie missen voor rigoureus wetenschappelijk onderzoek. GenoMAS kiest een andere aanpak door een team van LLM-gebaseerde wetenschappers te presenteren dat de betrouwbaarheid van gestructureerde workflows combineert met de aanpassingsvermogen van autonome agents. GenoMAS coördineert zes gespecialiseerde LLM-agents via getypeerde berichtuitwisselingsprotocollen, waarbij elk complementaire sterktes bijdraagt aan een gedeeld analytisch canvas. De kern van GenoMAS bestaat uit een begeleid planningsraamwerk: programmeeragents ontvouwen hoog-niveau taakrichtlijnen in Actie-eenheden en kiezen bij elk kruispunt om door te gaan, te herzien, over te slaan of terug te keren, waardoor logische samenhang wordt behouden terwijl soepel wordt omgegaan met de eigenaardigheden van genomische gegevens.
Op de GenoTEX-benchmark bereikt GenoMAS een Samengestelde Gelijkeniscorrelatie van 89,13% voor gegevensvoorbewerking en een F_1 van 60,48% voor genidentificatie, wat respectievelijk 10,61% en 16,85% hoger is dan de beste bestaande methoden. Naast metrische resultaten brengt GenoMAS biologisch plausibele gen-fenotype associaties aan het licht die worden ondersteund door de literatuur, terwijl tegelijkertijd rekening wordt gehouden met latente verstorende factoren. De code is beschikbaar op https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.