Evoflux: Evolución en tiempo de inferencia de flujos de trabajo de herramientas ejecutables para agentes compactos

Resumen

Los modelos de lenguaje (LM) compactos reducen el costo, la latencia y el riesgo de despliegue para agentes que utilizan herramientas. Sin embargo, el uso de herramientas al estilo MCP exige más que invocar funciones de forma aislada: un agente debe descubrir herramientas a partir de catálogos en vivo, cumplir con sus esquemas, preservar dependencias entre salidas intermedias y fundamentar las respuestas finales en la evidencia ejecutada. Los planificadores pequeños suelen generar grafos de flujo de trabajo plausibles que fallan en la resolución de herramientas, la validación de parámetros, el seguimiento de dependencias o la ejecución. Sostenemos que este modo de fallo es mal abordado por la destilación con corpus pequeños. Unos pocos cientos de rastros del profesor pueden enseñar el formato del flujo de trabajo, pero rara vez cubren el comportamiento de recuperación necesario para reparar planes fallidos en catálogos de herramientas cambiantes. Presentamos Evoflux, un método de búsqueda evolutiva en tiempo de inferencia que aborda el uso compacto de herramientas como la reparación de flujos de trabajo de herramientas ejecutables. Evoluciona grafos de flujo de trabajo tipados mediante ediciones estructuradas, retroalimentación de ejecución, intensidad adaptativa, rediseño guiado por metadatos y poda por diversidad. En tareas de MCP-Bench reservadas, que abarcan servidores MCP en vivo y 250 herramientas, Evoflux eleva la viabilidad de ejecución de aproximadamente 3% a 17-24% en distintos planificadores pequeños. En contraste, SFT y SFT+DPO sobre los mismos datos obtenidos por búsqueda igualan, tienen un rendimiento inferior o colapsan por debajo del rendimiento zero-shot; ReAct alcanza picos más altos, pero con mayor varianza y costo de tokens. Estos resultados muestran que la búsqueda basada en ejecución es más fiable bajo presupuestos escasos de rastros del profesor.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.