GenoMAS: 코드 기반 유전자 발현 분석을 통한 과학적 발견을 위한 다중 에이전트 프레임워크
GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis
July 28, 2025
저자: Haoyang Liu, Yijiang Li, Haohan Wang
cs.AI
초록
유전자 발현 분석은 많은 생물의학적 발견의 열쇠를 쥐고 있지만, 원시 전사체 데이터에서 통찰을 추출하는 것은 여러 개의 크고 반구조화된 파일의 복잡성과 광범위한 도메인 전문 지식의 필요성으로 인해 여전히 어려운 과제로 남아 있습니다. 현재의 자동화 접근 방식은 엣지 케이스에서 무너지는 경직된 워크플로우나 엄격한 과학적 탐구에 필요한 정밀도가 부족한 완전 자율 에이전트로 인해 제한되는 경우가 많습니다. GenoMAS는 구조화된 워크플로우의 신뢰성과 자율 에이전트의 적응성을 통합한 LLM 기반 과학자 팀을 제시함으로써 다른 길을 제시합니다. GenoMAS는 타입 메시지 전달 프로토콜을 통해 여섯 명의 전문 LLM 에이전트를 조율하며, 각각은 공유 분석 캔버스에 상호 보완적인 강점을 제공합니다. GenoMAS의 핵심에는 가이드된 계획 프레임워크가 있습니다: 프로그래밍 에이전트는 상위 수준 작업 지침을 액션 유닛으로 펼치고, 각 분기점에서 진행, 수정, 우회 또는 되돌아가기를 선택함으로써 논리적 일관성을 유지하면서도 유전체 데이터의 특이성에 유연하게 대응합니다.
GenoTEX 벤치마크에서 GenoMAS는 데이터 전처리에서 89.13%의 복합 유사성 상관관계를, 유전자 식별에서 60.48%의 F_1 점수를 달성하여 기존 최고 기술을 각각 10.61%와 16.85% 앞질렀습니다. 지표를 넘어, GenoMAS는 잠재적인 교란 요인을 조정하면서도 문헌으로 입증된 생물학적으로 타당한 유전자-표현형 연관성을 도출합니다. 코드는 https://github.com/Liu-Hy/GenoMAS에서 확인할 수 있습니다.
English
Gene expression analysis holds the key to many biomedical discoveries, yet
extracting insights from raw transcriptomic data remains formidable due to the
complexity of multiple large, semi-structured files and the need for extensive
domain expertise. Current automation approaches are often limited by either
inflexible workflows that break down in edge cases or by fully autonomous
agents that lack the necessary precision for rigorous scientific inquiry.
GenoMAS charts a different course by presenting a team of LLM-based scientists
that integrates the reliability of structured workflows with the adaptability
of autonomous agents. GenoMAS orchestrates six specialized LLM agents through
typed message-passing protocols, each contributing complementary strengths to a
shared analytic canvas. At the heart of GenoMAS lies a guided-planning
framework: programming agents unfold high-level task guidelines into Action
Units and, at each juncture, elect to advance, revise, bypass, or backtrack,
thereby maintaining logical coherence while bending gracefully to the
idiosyncrasies of genomic data.
On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation
of 89.13% for data preprocessing and an F_1 of 60.48% for gene
identification, surpassing the best prior art by 10.61% and 16.85%
respectively. Beyond metrics, GenoMAS surfaces biologically plausible
gene-phenotype associations corroborated by the literature, all while adjusting
for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.