EvoFSM: Auto-Evolução Controlada para Pesquisa Profunda com Máquinas de Estados Finitos

Resumo

Embora os agentes baseados em LLM tenham mostrado potencial para pesquisas profundas, a maioria das abordagens existentes depende de fluxos de trabalho fixos que lutam para se adaptar a consultas abertas do mundo real. Trabalhos recentes, portanto, exploram a auto-evolução permitindo que os agentes reescrevam seu próprio código ou *prompts* para melhorar a capacidade de resolução de problemas, mas a otimização sem restrições frequentemente desencadeia instabilidade, alucinações e desvio de instruções. Propomos o EvoFSM, uma estrutura de auto-evolução estruturada que alcança tanto adaptabilidade quanto controle evoluindo uma Máquina de Estados Finitos (MEF) explícita, em vez de depender de reescrita livre. O EvoFSM desacopla o espaço de otimização em *Flow* macroscópico (lógica de transição de estados) e *Skill* microscópico (comportamentos específicos do estado), permitindo melhorias direcionadas sob limites comportamentais claros. Guiado por um mecanismo crítico, o EvoFSM refina a MEF por meio de um pequeno conjunto de operações restritas e ainda incorpora uma memória auto-evolutiva que destila trajetórias bem-sucedidas como *priors* reutilizáveis e padrões de falha como restrições para consultas futuras. Avaliações extensas em cinco *benchmarks* de QA multi-hop demonstram a eficácia do EvoFSM. Em particular, o EvoFSM atinge 58,0% de precisão no *benchmark* DeepSearch. Resultados adicionais em tarefas interativas de tomada de decisão validam ainda mais sua generalização.

English

While LLM-based agents have shown promise for deep research, most existing approaches rely on fixed workflows that struggle to adapt to real-world, open-ended queries. Recent work therefore explores self-evolution by allowing agents to rewrite their own code or prompts to improve problem-solving ability, but unconstrained optimization often triggers instability, hallucinations, and instruction drift. We propose EvoFSM, a structured self-evolving framework that achieves both adaptability and control by evolving an explicit Finite State Machine (FSM) instead of relying on free-form rewriting. EvoFSM decouples the optimization space into macroscopic Flow (state-transition logic) and microscopic Skill (state-specific behaviors), enabling targeted improvements under clear behavioral boundaries. Guided by a critic mechanism, EvoFSM refines the FSM through a small set of constrained operations, and further incorporates a self-evolving memory that distills successful trajectories as reusable priors and failure patterns as constraints for future queries. Extensive evaluations on five multi-hop QA benchmarks demonstrate the effectiveness of EvoFSM. In particular, EvoFSM reaches 58.0% accuracy on the DeepSearch benchmark. Additional results on interactive decision-making tasks further validate its generalization.