EvoFSM: 유한 상태 기계를 활용한 심층 연구를 위한 제어 가능한 자기 진화
EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines
January 14, 2026
저자: Shuo Zhang, Chaofa Yuan, Ryan Guo, Xiaomin Yu, Rui Xu, Zhangquan Chen, Zinuo Li, Zhi Yang, Shuhao Guan, Zhenheng Tang, Sen Hu, Liwen Zhang, Ronghao Chen, Huacan Wang
cs.AI
초록
LLM 기반 에이전트가 심층 연구 분야에서 가능성을 보여주고 있지만, 대부분의 기존 접근법은 실제 세계의 개방형 질의에 적응하기 어려운 고정된 워크플로우에 의존합니다. 따라서 최근 연구에서는 에이전트가 자체 코드나 프롬프트를 재작성하여 문제 해결 능력을 향상시키는 자기 진화(Self-evolution)를 탐구하지만, 제약 없는 최적화는 종종 불안정성, 환각(Hallucination) 및 명령어 이탈(Instruction drift)을 유발합니다. 우리는 자유 형식 재작성에 의존하기보다 명시적 유한 상태 기계(Finite State Machine, FSM)를 진화시켜 적응성과 제어력을 동시에 달성하는 구조화된 자기 진화 프레임워크인 EvoFSM을 제안합니다. EvoFSM은 최적화 공간을 거시적 흐름(Flow, 상태 전이 논리)과 미시적 기술(Skill, 상태별 행동)로 분리하여 명확한 행동 경계 내에서 표적 개선을 가능하게 합니다. 비판 메커니즘(Critic mechanism)의 지도를 받아 EvoFSM은 소수의 제약된 연산을 통해 FSM을 정제하며, 성공적인 궤적은 재사용 가능한 사전 지식(Prior)으로, 실패 패턴은 향후 질의를 위한 제약 조건으로 정제하는 자기 진화 메모리를 추가로 통합합니다. 5개의 다중 홉 질의응답(Multi-hop QA) 벤치마크에 대한 광범위한 평가를 통해 EvoFSM의 효과를 입증했습니다. 특히 EvoFSM은 DeepSearch 벤치마크에서 58.0%의 정확도를 달성했습니다. 대화형 의사 결정 과제에 대한 추가 결과는 그 일반화 능력을 더욱 검증합니다.
English
While LLM-based agents have shown promise for deep research, most existing approaches rely on fixed workflows that struggle to adapt to real-world, open-ended queries. Recent work therefore explores self-evolution by allowing agents to rewrite their own code or prompts to improve problem-solving ability, but unconstrained optimization often triggers instability, hallucinations, and instruction drift. We propose EvoFSM, a structured self-evolving framework that achieves both adaptability and control by evolving an explicit Finite State Machine (FSM) instead of relying on free-form rewriting. EvoFSM decouples the optimization space into macroscopic Flow (state-transition logic) and microscopic Skill (state-specific behaviors), enabling targeted improvements under clear behavioral boundaries. Guided by a critic mechanism, EvoFSM refines the FSM through a small set of constrained operations, and further incorporates a self-evolving memory that distills successful trajectories as reusable priors and failure patterns as constraints for future queries. Extensive evaluations on five multi-hop QA benchmarks demonstrate the effectiveness of EvoFSM. In particular, EvoFSM reaches 58.0% accuracy on the DeepSearch benchmark. Additional results on interactive decision-making tasks further validate its generalization.