GenoMAS: Um Framework Multiagente para Descoberta Científica via Análise de Expressão Gênica Orientada por Código
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
Autores: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
Resumo
A análise de expressão gênica é fundamental para muitas descobertas biomédicas, mas a extração de insights a partir de dados transcriptômicos brutos continua sendo um desafio devido à complexidade de múltiplos arquivos grandes e semiestruturados e à necessidade de ampla expertise no domínio. As abordagens atuais de automação são frequentemente limitadas por fluxos de trabalho inflexíveis que falham em casos extremos ou por agentes totalmente autônomos que carecem da precisão necessária para investigações científicas rigorosas. O GenoMAS traça um caminho diferente ao apresentar uma equipe de cientistas baseados em LLM (Large Language Models) que integra a confiabilidade de fluxos de trabalho estruturados com a adaptabilidade de agentes autônomos. O GenoMAS orquestra seis agentes especializados de LLM por meio de protocolos de passagem de mensagens tipadas, cada um contribuindo com pontos fortes complementares para uma tela analítica compartilhada. No cerne do GenoMAS está uma estrutura de planejamento guiado: agentes de programação desdobram diretrizes de tarefas de alto nível em Unidades de Ação e, em cada junção, optam por avançar, revisar, contornar ou retroceder, mantendo assim a coerência lógica enquanto se adaptam com flexibilidade às idiossincrasias dos dados genômicos.
No benchmark GenoTEX, o GenoMAS alcança uma Correlação de Similaridade Composta de 89,13% para pré-processamento de dados e um F1 de 60,48% para identificação de genes, superando o estado da arte anterior em 10,61% e 16,85%, respectivamente. Além das métricas, o GenoMAS revela associações gene-fenótipo biologicamente plausíveis corroboradas pela literatura, tudo isso enquanto ajusta para confundidores latentes. O código está disponível em https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.