GenoMAS: Um Framework Multiagente para Descoberta Científica via Análise de Expressão Gênica Orientada por Código

Resumo

A análise de expressão gênica é fundamental para muitas descobertas biomédicas, mas a extração de insights a partir de dados transcriptômicos brutos continua sendo um desafio devido à complexidade de múltiplos arquivos grandes e semiestruturados e à necessidade de ampla expertise no domínio. As abordagens atuais de automação são frequentemente limitadas por fluxos de trabalho inflexíveis que falham em casos extremos ou por agentes totalmente autônomos que carecem da precisão necessária para investigações científicas rigorosas. O GenoMAS traça um caminho diferente ao apresentar uma equipe de cientistas baseados em LLM (Large Language Models) que integra a confiabilidade de fluxos de trabalho estruturados com a adaptabilidade de agentes autônomos. O GenoMAS orquestra seis agentes especializados de LLM por meio de protocolos de passagem de mensagens tipadas, cada um contribuindo com pontos fortes complementares para uma tela analítica compartilhada. No cerne do GenoMAS está uma estrutura de planejamento guiado: agentes de programação desdobram diretrizes de tarefas de alto nível em Unidades de Ação e, em cada junção, optam por avançar, revisar, contornar ou retroceder, mantendo assim a coerência lógica enquanto se adaptam com flexibilidade às idiossincrasias dos dados genômicos. No benchmark GenoTEX, o GenoMAS alcança uma Correlação de Similaridade Composta de 89,13% para pré-processamento de dados e um F1 de 60,48% para identificação de genes, superando o estado da arte anterior em 10,61% e 16,85%, respectivamente. Além das métricas, o GenoMAS revela associações gene-fenótipo biologicamente plausíveis corroboradas pela literatura, tudo isso enquanto ajusta para confundidores latentes. O código está disponível em https://github.com/Liu-Hy/GenoMAS.

English

Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F_1 of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.

GenoMAS: Um Framework Multiagente para Descoberta Científica via Análise de Expressão Gênica Orientada por Código

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

Resumo

Support