GenoMAS: Многоагентная платформа для научных открытий через анализ экспрессии генов, управляемый кодом
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
Авторы: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
Аннотация
Анализ экспрессии генов является ключом ко многим биомедицинским открытиям, однако извлечение инсайтов из сырых транскриптомных данных остается сложной задачей из-за сложности работы с множеством крупных, полуструктурированных файлов и необходимости наличия глубоких знаний в предметной области. Современные подходы к автоматизации часто ограничены либо негибкими рабочими процессами, которые дают сбои в нестандартных случаях, либо полностью автономными агентами, которым не хватает точности для строгого научного исследования. GenoMAS предлагает иной путь, представляя команду ученых на основе больших языковых моделей (LLM), которая сочетает надежность структурированных рабочих процессов с адаптивностью автономных агентов. GenoMAS координирует шесть специализированных LLM-агентов через типизированные протоколы передачи сообщений, каждый из которых вносит свои уникальные сильные стороны в общий аналитический процесс. В основе GenoMAS лежит фреймворк управляемого планирования: программируемые агенты разворачивают высокоуровневые инструкции задач в "Единицы действий" и на каждом этапе выбирают, продвигаться ли вперед, пересматривать, пропускать или возвращаться назад, тем самым сохраняя логическую согласованность, одновременно гибко адаптируясь к особенностям геномных данных.
На бенчмарке GenoTEX GenoMAS достигает коэффициента композитной корреляции сходства 89,13% для предобработки данных и F₁-меры 60,48% для идентификации генов, превосходя лучшие существующие методы на 10,61% и 16,85% соответственно. Помимо метрик, GenoMAS выявляет биологически правдоподобные ассоциации ген-фенотип, подтвержденные литературой, одновременно учитывая скрытые искажающие факторы. Код доступен по адресу https://github.com/Liu-Hy/GenoMAS.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.