FlowPIE: 흐름 기반 문헌 탐색을 통한 테스트 타임 과학 아이디어 진화
FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration
March 31, 2026
저자: Qiyao Wang, Hongbo Wang, Longze Chen, Zhihao Yang, Guhong Chen, Hamid Alinejad-Rokny, Hui Li, Yuan Lin, Min Yang
cs.AI
초록
과학적 아이디어 생성(SIG)은 AI 기반 자율 연구에 핵심적이지만, 기존 접근법은 정적인 검색-후-생성 패러다임에 제한되어 동질적이고 충분히 발산되지 않은 아이디어를 생성하는 경향이 있습니다. 본 연구에서는 문헌 탐색과 아이디어 생성을 공동 진화 과정으로 간주하는 긴밀하게 결합된 검색-생성 프레임워크인 FlowPIE를 제안합니다. FlowPIE는 GFlowNets에서 영감을 받은 흐름 기반 몬테카를로 트리 탐색(MCTS)을 통해 문헌 경로를 확장하며, LLM 기반 생성적 보상 모델(GRM)로 평가된 현재 아이디어의 품질을 지도 신호로 활용하여 적응형 검색을 유도하고 다양하며 고품질인 초기 개체군을 구축합니다. 이 개체군을 기반으로 FlowPIE는 아이디어 생성을 테스트 단계 아이디어 진화 과정으로 모델링하며, 격리 섬 패러다임과 GRM 기반 적합도 계산을 통해 선택, 교차, 변이를 적용하여 분야 간 지식을 통합합니다. 이는 매개변수적 지식과 정적 문헌에 대한 과도한 의존으로 발생하는 정보 공고화 현상을 효과적으로 완화합니다. 폭넓은 평가 결과, FlowPIE는 강력한 LLM 기반 및 에이전트 기반 프레임워크 대비 더 높은 참신성, 실현 가능성, 다양성을 지닌 아이디어를 지속적으로 생성하며, 테스트 단계에서 보상 스케일링이 가능함을 입증했습니다.
English
Scientific idea generation (SIG) is critical to AI-driven autonomous research, yet existing approaches are often constrained by a static retrieval-then-generation paradigm, leading to homogeneous and insufficiently divergent ideas. In this work, we propose FlowPIE, a tightly coupled retrieval-generation framework that treats literature exploration and idea generation as a co-evolving process. FlowPIE expands literature trajectories via a flow-guided Monte Carlo Tree Search (MCTS) inspired by GFlowNets, using the quality of current ideas assessed by an LLM-based generative reward model (GRM) as a supervised signal to guide adaptive retrieval and construct a diverse, high-quality initial population. Based on this population, FlowPIE models idea generation as a test-time idea evolution process, applying selection, crossover, and mutation with the isolation island paradigm and GRM-based fitness computation to incorporate cross-domain knowledge. It effectively mitigates the information cocoons arising from over-reliance on parametric knowledge and static literature. Extensive evaluations demonstrate that FlowPIE consistently produces ideas with higher novelty, feasibility and diversity compared to strong LLM-based and agent-based frameworks, while enabling reward scaling during test time.