ChatPaper.aiChatPaper

GenoMAS : Un cadre multi-agent pour la découverte scientifique via l'analyse d'expression génique pilotée par le code

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

July 28, 2025
papers.authors: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI

papers.abstract

L'analyse de l'expression génétique détient la clé de nombreuses découvertes biomédicales, mais l'extraction d'informations à partir de données transcriptomiques brutes reste un défi de taille en raison de la complexité des multiples fichiers volumineux et semi-structurés, ainsi que du besoin d'une expertise approfondie dans le domaine. Les approches actuelles d'automatisation sont souvent limitées soit par des workflows rigides qui échouent dans les cas particuliers, soit par des agents entièrement autonomes qui manquent de la précision nécessaire pour une investigation scientifique rigoureuse. GenoMAS propose une voie différente en présentant une équipe de scientifiques basés sur des LLM (modèles de langage) qui intègre la fiabilité des workflows structurés avec l'adaptabilité des agents autonomes. GenoMAS orchestre six agents LLM spécialisés à travers des protocoles de passage de messages typés, chacun apportant des compétences complémentaires à un canevas analytique partagé. Au cœur de GenoMAS se trouve un cadre de planification guidée : les agents de programmation décomposent les directives de haut niveau en Unités d'Action et, à chaque étape, choisissent d'avancer, de réviser, de contourner ou de revenir en arrière, maintenant ainsi une cohérence logique tout en s'adaptant avec souplesse aux particularités des données génomiques. Sur le benchmark GenoTEX, GenoMAS atteint un Coefficient de Similarité Composite de 89,13 % pour le prétraitement des données et un F₁ de 60,48 % pour l'identification des gènes, surpassant respectivement les meilleures approches précédentes de 10,61 % et 16,85 %. Au-delà des métriques, GenoMAS met en lumière des associations gène-phénotype biologiquement plausibles, corroborées par la littérature, tout en ajustant pour les facteurs confondants latents. Le code est disponible à l'adresse suivante : https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F_1 of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.
PDF12July 29, 2025