GenoMAS: コード駆動型遺伝子発現解析による科学的発見のためのマルチエージェントフレームワーク
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
著者: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
要旨
遺伝子発現解析は多くの生物医学的発見の鍵を握っていますが、生のトランスクリプトミクスデータから洞察を抽出することは、複数の大規模で半構造化されたファイルの複雑さと、広範なドメイン知識の必要性により、依然として困難を極めます。現在の自動化アプローチは、エッジケースで破綻する柔軟性のないワークフローか、厳密な科学的探究に必要な精度を欠く完全自律エージェントのいずれかに限られています。GenoMASは、構造化されたワークフローの信頼性と自律エージェントの適応性を統合したLLMベースの科学者チームを提示することで、異なる道を切り開きます。GenoMASは、型付きメッセージパッシングプロトコルを通じて6つの専門化されたLLMエージェントを調整し、それぞれが共有分析キャンバスに相補的な強みを提供します。GenoMASの中核には、ガイド付きプランニングフレームワークがあります:プログラミングエージェントは、高レベルのタスクガイドラインをアクションユニットに展開し、各分岐点で進む、修正する、迂回する、または戻ることを選択し、ゲノムデータの特異性に柔軟に対応しながら論理的一貫性を維持します。
GenoTEXベンチマークにおいて、GenoMASはデータ前処理で89.13%の複合類似性相関を達成し、遺伝子同定ではF_1スコア60.48%を記録し、従来の最高技術をそれぞれ10.61%と16.85%上回りました。指標を超えて、GenoMASは文献によって裏付けられた生物学的に妥当な遺伝子-表現型関連を浮き彫りにし、潜在的な交絡因子を調整します。コードはhttps://github.com/Liu-Hy/GenoMASで入手可能です。
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.