Evoflux: Inferentietijd-Evolutie van Uitvoerbare Toolworkflows voor Compacte Agenten

Samenvatting

Compacte taalmodellen (LMs) verlagen kosten, latentie en implementatierisico voor toolagenten. Toch vereist MCP-stijl toolgebruik meer dan geïsoleerde functieaanroepen: een agent moet tools ontdekken uit live catalogen, schema's vervullen, afhankelijkheden over tussentijdse uitkomsten behouden en uiteindelijke antwoorden baseren op uitgevoerd bewijs. Kleine planners genereren vaak plausibele workflowgrafieken die falen bij toolresolutie, parametervalidatie, afhankelijkheidsregistratie of uitvoering. Wij stellen dat deze faalmodus slecht wordt aangepakt door distillatie op basis van een kleine corpus. Een paar honderd lerarentraces kunnen workflowformaat aanleren, maar dekken zelden het herstelgedrag dat nodig is om mislukte plannen te repareren bij veranderende toolcatalogen. We introduceren Evoflux, een evolutionaire zoekmethode tijdens inferentie, die compact toolgebruik beschouwt als het repareren van uitvoerbare toolworkflows. Het evolueert getypeerde workflowgrafieken via gestructureerde bewerkingen, uitvoeringsfeedback, adaptieve intensiteit, meta-gestuurd herontwerp en diversiteitssnoei. Op vastgehouden MCP-Bench-taken die live MCP-servers en 250 tools omvatten, verhoogt Evoflux de uitvoerbaarheid van ongeveer 3% naar 17-24% bij kleine planners. Daarentegen evenaren, presteren SFT en SFT+DPO op dezelfde door zoekopdrachten gewonnen data slechter of kelderen onder zero-shot prestaties; ReAct bereikt hogere pieken, maar met hogere variantie en tokkenkosten. Deze resultaten tonen aan dat op uitvoering gebaseerd zoeken betrouwbaarder is bij beperkte lerarentracebudgetten.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.