Evoflux: Inferenzzeit-Evolution ausführbarer Tool-Workflows für kompakte Agenten

Zusammenfassung

Kompakte Sprachmodelle (LMs) senken Kosten, Latenz und Bereitstellungsrisiko für Werkzeugagenten. Doch die Werkzeugnutzung im MCP-Stil erfordert mehr als isolierte Funktionsaufrufe: Ein Agent muss Werkzeuge aus Live-Katalogen entdecken, Schemata erfüllen, Abhängigkeiten über Zwischenergebnisse hinweg erhalten und endgültige Antworten in ausgeführten Belegen verankern. Kleine Planer erzeugen oft plausible Arbeitsablaufgraphen, die unter Werkzeugauflösung, Parametervalidierung, Abhängigkeitsverfolgung oder Ausführung scheitern. Wir argumentieren, dass diese Fehlerart durch Destillation kleiner Korpora schlecht behandelt wird. Einige hundert Lehrer-Traces können das Arbeitsablaufsformat lehren, decken aber selten das Wiederherstellungsverhalten ab, das zur Reparatur fehlgeschlagener Pläne bei sich ändernden Werkzeugkatalogen erforderlich ist. Wir stellen Evoflux vor, eine Evolutionssuchmethode zur Inferenzzeit, die kompakte Werkzeugnutzung als Reparatur ausführbarer Werkzeugarbeitsabläufe betrachtet. Es entwickelt typisierte Arbeitsablaufgraphen durch strukturierte Bearbeitungen, Ausführungsfeedback, adaptive Intensität, metagestütztes Redesign und Diversitätsbereinigung. Bei ausgelagerten MCP-Bench-Aufgaben, die Live-MCP-Server und 250 Werkzeuge umfassen, erhöht Evoflux die Ausführbarkeit von etwa 3% auf 17–24% bei kleinen Planern. Im Gegensatz dazu gleichen SFT und SFT+DPO auf denselben suchgewonnenen Daten entweder aus, schneiden schlechter ab oder brechen unter die Zero-Shot-Leistung ein; ReAct erreicht höhere Spitzenwerte, jedoch mit höherer Varianz und Tokenkosten. Diese Ergebnisse zeigen, dass ausführungsgestützte Suche bei knappen Lehrer-Trace-Budgets zuverlässiger ist.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.