ChatPaper.aiChatPaper

EvoFSM:有限状態機械による制御可能な自己進化を活用した深層研究

EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines

January 14, 2026
著者: Shuo Zhang, Chaofa Yuan, Ryan Guo, Xiaomin Yu, Rui Xu, Zhangquan Chen, Zinuo Li, Zhi Yang, Shuhao Guan, Zhenheng Tang, Sen Hu, Liwen Zhang, Ronghao Chen, Huacan Wang
cs.AI

要旨

大規模言語モデル(LLM)ベースのエージェントは深い調査タスクでの有望性を示しているが、既存手法の多くは固定化されたワークフローに依存しており、現実世界のオープンエンドな問い合わせに適応することが困難である。この課題に対処するため、最近の研究ではエージェント自身がコードやプロンプトを書き換えることで問題解決能力を向上させる自己進化の手法が探られている。しかし、制約のない最適化は不安定性、虚構生成、指示の逸脱を引き起こしやすい。本論文では、自由形式の書き換えに依存する代わりに、明示的な有限状態機械(FSM)を進化させることで適応性と制御性を両立する構造化自己進化フレームワーク「EvoFSM」を提案する。EvoFSMは最適化空間を、巨視的な「フロー」(状態遷移ロジック)と微視的な「スキル」(状態固有の振る舞い)に分離し、明確な行動境界のもとで標的を絞った改善を可能にする。批評メカニズムの導きにより、EvoFSMは限定的な操作セットを通じてFSMを洗練させ、さらに、成功した軌跡を再利用可能な事前知識として、失敗パターンを将来の問い合わせに対する制約として抽出する自己進化メモリを組み込む。5つのマルチホップ質問応答ベンチマークによる大規模な評価は、EvoFSMの有効性を実証している。特に、DeepSearchベンチマークにおいてEvoFSMは58.0%の精度を達成した。対話型意思決定タスクにおける追加結果は、その汎化性能をさらに裏付けるものである。
English
While LLM-based agents have shown promise for deep research, most existing approaches rely on fixed workflows that struggle to adapt to real-world, open-ended queries. Recent work therefore explores self-evolution by allowing agents to rewrite their own code or prompts to improve problem-solving ability, but unconstrained optimization often triggers instability, hallucinations, and instruction drift. We propose EvoFSM, a structured self-evolving framework that achieves both adaptability and control by evolving an explicit Finite State Machine (FSM) instead of relying on free-form rewriting. EvoFSM decouples the optimization space into macroscopic Flow (state-transition logic) and microscopic Skill (state-specific behaviors), enabling targeted improvements under clear behavioral boundaries. Guided by a critic mechanism, EvoFSM refines the FSM through a small set of constrained operations, and further incorporates a self-evolving memory that distills successful trajectories as reusable priors and failure patterns as constraints for future queries. Extensive evaluations on five multi-hop QA benchmarks demonstrate the effectiveness of EvoFSM. In particular, EvoFSM reaches 58.0% accuracy on the DeepSearch benchmark. Additional results on interactive decision-making tasks further validate its generalization.
PDF111January 16, 2026