GenoMAS: Многоагентная платформа для научных открытий через анализ экспрессии генов, управляемый кодом

Аннотация

Анализ экспрессии генов является ключом ко многим биомедицинским открытиям, однако извлечение инсайтов из сырых транскриптомных данных остается сложной задачей из-за сложности работы с множеством крупных, полуструктурированных файлов и необходимости наличия глубоких знаний в предметной области. Современные подходы к автоматизации часто ограничены либо негибкими рабочими процессами, которые дают сбои в нестандартных случаях, либо полностью автономными агентами, которым не хватает точности для строгого научного исследования. GenoMAS предлагает иной путь, представляя команду ученых на основе больших языковых моделей (LLM), которая сочетает надежность структурированных рабочих процессов с адаптивностью автономных агентов. GenoMAS координирует шесть специализированных LLM-агентов через типизированные протоколы передачи сообщений, каждый из которых вносит свои уникальные сильные стороны в общий аналитический процесс. В основе GenoMAS лежит фреймворк управляемого планирования: программируемые агенты разворачивают высокоуровневые инструкции задач в "Единицы действий" и на каждом этапе выбирают, продвигаться ли вперед, пересматривать, пропускать или возвращаться назад, тем самым сохраняя логическую согласованность, одновременно гибко адаптируясь к особенностям геномных данных. На бенчмарке GenoTEX GenoMAS достигает коэффициента композитной корреляции сходства 89,13% для предобработки данных и F₁-меры 60,48% для идентификации генов, превосходя лучшие существующие методы на 10,61% и 16,85% соответственно. Помимо метрик, GenoMAS выявляет биологически правдоподобные ассоциации ген-фенотип, подтвержденные литературой, одновременно учитывая скрытые искажающие факторы. Код доступен по адресу https://github.com/Liu-Hy/GenoMAS.

English

Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F_1 of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.

GenoMAS: Многоагентная платформа для научных открытий через анализ экспрессии генов, управляемый кодом

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

Аннотация

Support