GenoMAS: Un Framework Multi-Agente per la Scoperta Scientifica tramite Analisi dell'Espressione Genica Guidata da Codice

Abstract

L'analisi dell'espressione genica rappresenta la chiave per molte scoperte biomediche, tuttavia estrarre informazioni dai dati trascrittomici grezzi rimane una sfida impegnativa a causa della complessità di più file di grandi dimensioni e semi-strutturati e della necessità di un'ampia competenza nel dominio. Gli attuali approcci di automazione sono spesso limitati da flussi di lavoro rigidi che falliscono nei casi limite o da agenti completamente autonomi che mancano della precisione necessaria per un'indagine scientifica rigorosa. GenoMAS traccia un percorso diverso presentando un team di scienziati basati su LLM che integra l'affidabilità dei flussi di lavoro strutturati con l'adattabilità degli agenti autonomi. GenoMAS orchestra sei agenti LLM specializzati attraverso protocolli di passaggio di messaggi tipizzati, ciascuno dei quali contribuisce con punti di forza complementari a una tela analitica condivisa. Al centro di GenoMAS si trova un framework di pianificazione guidata: gli agenti di programmazione scompongono le linee guida di alto livello delle attività in Unità d'Azione e, a ogni punto di decisione, scelgono di avanzare, rivedere, bypassare o tornare indietro, mantenendo così la coerenza logica mentre si adattano con flessibilità alle idiosincrasie dei dati genomici. Sul benchmark GenoTEX, GenoMAS raggiunge una Correlazione di Somiglianza Composita dell'89,13% per la pre-elaborazione dei dati e un F_1 del 60,48% per l'identificazione genica, superando rispettivamente il miglior stato dell'arte del 10,61% e del 16,85%. Oltre alle metriche, GenoMAS evidenzia associazioni gene-fenotipo biologicamente plausibili corroborate dalla letteratura, tutto ciò mentre aggiusta per i fattori confondenti latenti. Il codice è disponibile all'indirizzo https://github.com/Liu-Hy/GenoMAS.

English

Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F_1 of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.

GenoMAS: Un Framework Multi-Agente per la Scoperta Scientifica tramite Analisi dell'Espressione Genica Guidata da Codice

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

Abstract

Support