Evoflux: Evolução em Tempo de Inferência de Fluxos de Trabalho de Ferramentas Executáveis para Agentes Compactos

Resumo

Modelos de linguagem compactos reduzem custo, latência e risco de implantação para agentes de ferramentas. No entanto, o uso de ferramentas no estilo MCP exige mais do que chamadas de função isoladas: um agente deve descobrir ferramentas a partir de catálogos ativos, satisfazer esquemas, preservar dependências entre saídas intermediárias e fundamentar respostas finais em evidências executadas. Planejadores pequenos frequentemente geram grafos de workflow plausíveis que falham na resolução de ferramentas, validação de parâmetros, rastreamento de dependências ou execução. Argumentamos que esse modo de falha é mal tratado pela destilação em corpus pequeno. Algumas centenas de rastros do professor podem ensinar o formato do workflow, mas raramente cobrem o comportamento de recuperação necessário para reparar planos falhos em catálogos de ferramentas em mudança. Apresentamos o Evoflux, um método de busca evolutiva em tempo de inferência que trata o uso compacto de ferramentas como reparo de workflows de ferramentas executáveis. Ele evolui grafos de workflow tipados por meio de edições estruturadas, feedback de execução, intensidade adaptativa, redesign guiado por meta e poda de diversidade. Em tarefas retidas do MCP-Bench, abrangendo servidores MCP ativos e 250 ferramentas, o Evoflux eleva a viabilidade de execução de aproximadamente 3% para 17-24% em planejadores pequenos. Em contraste, SFT e SFT+DPO sobre os mesmos dados minerados por busca igualam, têm desempenho inferior ou colapsam abaixo do desempenho zero-shot; o ReAct atinge picos mais altos, mas com maior variância e custo de tokens. Esses resultados mostram que a busca fundamentada em execução é mais confiável sob orçamentos escassos de rastros do professor.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.