FlowPIE: フロー誘導型文献探索によるテスト時科学的アイデア進化
FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration
March 31, 2026
著者: Qiyao Wang, Hongbo Wang, Longze Chen, Zhihao Yang, Guhong Chen, Hamid Alinejad-Rokny, Hui Li, Yuan Lin, Min Yang
cs.AI
要旨
科学的アイデア生成(SIG)は、AI駆動の自律的研究において重要であるが、既存のアプローチは静的な「検索→生成」パラダイムに制約されることが多く、均質で発散性が不十分なアイデアにつながりがちである。本研究では、文献探索とアイデア生成を共進化プロセスとして扱う、密結合な検索-生成フレームワークであるFlowPIEを提案する。FlowPIEは、GFlowNetsに着想を得たフロー誘導型モンテカルロ木探索(MCTS)により文献軌跡を拡張し、LLMベースの生成的報酬モデル(GRM)によって評価された現在のアイデアの質を教師信号として、適応的検索を誘導し、多様で高品質な初期個体群を構築する。この個体群に基づき、FlowPIEはアイデア生成をテスト時におけるアイデア進化プロセスとしてモデル化し、選択、交叉、変異を隔離島パラダイムおよびGRMベースの適応度計算とともに適用して、分野横断的知識を組み込む。これにより、パラメトリック知識や静的な文献への過度な依存から生じる情報カクーンを効果的に緩和する。大規模な評価により、FlowPIEが強力なLLMベース及びエージェントベースのフレームワークと比較して、新奇性、実現可能性、多様性の高いアイデアを一貫して生成し、テスト時における報酬スケーリングを可能にすることが実証された。
English
Scientific idea generation (SIG) is critical to AI-driven autonomous research, yet existing approaches are often constrained by a static retrieval-then-generation paradigm, leading to homogeneous and insufficiently divergent ideas. In this work, we propose FlowPIE, a tightly coupled retrieval-generation framework that treats literature exploration and idea generation as a co-evolving process. FlowPIE expands literature trajectories via a flow-guided Monte Carlo Tree Search (MCTS) inspired by GFlowNets, using the quality of current ideas assessed by an LLM-based generative reward model (GRM) as a supervised signal to guide adaptive retrieval and construct a diverse, high-quality initial population. Based on this population, FlowPIE models idea generation as a test-time idea evolution process, applying selection, crossover, and mutation with the isolation island paradigm and GRM-based fitness computation to incorporate cross-domain knowledge. It effectively mitigates the information cocoons arising from over-reliance on parametric knowledge and static literature. Extensive evaluations demonstrate that FlowPIE consistently produces ideas with higher novelty, feasibility and diversity compared to strong LLM-based and agent-based frameworks, while enabling reward scaling during test time.