GenoMAS: Un Framework Multi-Agente per la Scoperta Scientifica tramite Analisi dell'Espressione Genica Guidata da Codice
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
Autori: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
Abstract
L'analisi dell'espressione genica rappresenta la chiave per molte scoperte biomediche, tuttavia estrarre informazioni dai dati trascrittomici grezzi rimane una sfida impegnativa a causa della complessità di più file di grandi dimensioni e semi-strutturati e della necessità di un'ampia competenza nel dominio. Gli attuali approcci di automazione sono spesso limitati da flussi di lavoro rigidi che falliscono nei casi limite o da agenti completamente autonomi che mancano della precisione necessaria per un'indagine scientifica rigorosa. GenoMAS traccia un percorso diverso presentando un team di scienziati basati su LLM che integra l'affidabilità dei flussi di lavoro strutturati con l'adattabilità degli agenti autonomi. GenoMAS orchestra sei agenti LLM specializzati attraverso protocolli di passaggio di messaggi tipizzati, ciascuno dei quali contribuisce con punti di forza complementari a una tela analitica condivisa. Al centro di GenoMAS si trova un framework di pianificazione guidata: gli agenti di programmazione scompongono le linee guida di alto livello delle attività in Unità d'Azione e, a ogni punto di decisione, scelgono di avanzare, rivedere, bypassare o tornare indietro, mantenendo così la coerenza logica mentre si adattano con flessibilità alle idiosincrasie dei dati genomici.
Sul benchmark GenoTEX, GenoMAS raggiunge una Correlazione di Somiglianza Composita dell'89,13% per la pre-elaborazione dei dati e un F_1 del 60,48% per l'identificazione genica, superando rispettivamente il miglior stato dell'arte del 10,61% e del 16,85%. Oltre alle metriche, GenoMAS evidenzia associazioni gene-fenotipo biologicamente plausibili corroborate dalla letteratura, tutto ciò mentre aggiusta per i fattori confondenti latenti. Il codice è disponibile all'indirizzo https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.