GenoMAS: Ein Multi-Agenten-Framework für wissenschaftliche Entdeckungen durch code-gesteuerte Genexpressionsanalyse
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
papers.authors: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
papers.abstract
Die Genexpressionsanalyse ist der Schlüssel zu vielen biomedizinischen Entdeckungen, doch die Gewinnung von Erkenntnissen aus rohen transkriptomischen Daten bleibt aufgrund der Komplexität mehrerer großer, teilstrukturierter Dateien und des Bedarfs an umfangreichem Fachwissen eine Herausforderung. Aktuelle Automatisierungsansätze sind oft entweder durch unflexible Workflows eingeschränkt, die in Randfällen versagen, oder durch vollständig autonome Agenten, denen die notwendige Präzision für rigorose wissenschaftliche Untersuchungen fehlt. GenoMAS geht einen anderen Weg, indem es ein Team von LLM-basierten Wissenschaftlern präsentiert, das die Zuverlässigkeit strukturierter Workflows mit der Anpassungsfähigkeit autonomer Agenten vereint. GenoMAS orchestriert sechs spezialisierte LLM-Agenten durch typisierte Nachrichtenübermittlungsprotokolle, wobei jeder Agent komplementäre Stärken zu einer gemeinsamen analytischen Leinwand beiträgt. Im Kern von GenoMAS liegt ein geführtes Planungsframework: Programmieragenten entfalten hochrangige Aufgabenrichtlinien in Aktions-Einheiten und entscheiden an jedem Punkt, ob sie voranschreiten, überarbeiten, überspringen oder zurückkehren sollen, wodurch die logische Kohärenz gewahrt bleibt, während sie sich gleichzeitig flexibel den Eigenheiten genomischer Daten anpassen.
Auf dem GenoTEX-Benchmark erreicht GenoMAS eine zusammengesetzte Ähnlichkeitskorrelation von 89,13 % für die Datenvorverarbeitung und einen F1-Wert von 60,48 % für die Genidentifikation, womit es den bisherigen Stand der Technik um 10,61 % bzw. 16,85 % übertrifft. Über Metriken hinaus identifiziert GenoMAS biologisch plausible Gen-Phänotyp-Assoziationen, die durch die Literatur bestätigt werden, und berücksichtigt dabei latente Störfaktoren. Der Code ist verfügbar unter https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.