Эвофлюкс: Эволюция исполняемых рабочих процессов инструментов на этапе вывода для компактных агентов

Аннотация

Компактные языковые модели (ЯМ) снижают затраты, задержку и риски развертывания инструментальных агентов. Однако использование инструментов в стиле MCP требует большего, чем изолированный вызов функций: агент должен находить инструменты из действующих каталогов, удовлетворять схемам, отслеживать зависимости между промежуточными результатами и обосновывать итоговые ответы на основе выполненной доказательной базы. Малые планировщики часто генерируют правдоподобные графы рабочих процессов, которые оказываются несостоятельными при разрешении инструментов, проверке параметров, отслеживании зависимостей или выполнении. Мы утверждаем, что такой сбой плохо обрабатывается дистилляцией на малых корпусах. Несколько сотен трасс учителя могут обучить формату рабочего процесса, но редко охватывают поведение восстановления, необходимое для исправления неудачных планов при изменении каталогов инструментов. Мы представляем Evoflux — метод эволюционного поиска во время вывода, который рассматривает компактное использование инструментов как исправление исполняемых инструментальных рабочих процессов. Он эволюционирует типизированные графы рабочих процессов с помощью структурированных правок, обратной связи по выполнению, адаптивной интенсивности, мета-направленного перепроектирования и обрезки по разнообразию. На тестовых заданиях MCP-Bench, охватывающих действующие MCP-серверы и 250 инструментов, Evoflux повышает выполнимость с примерно 3% до 17–24% для различных малых планировщиков. Напротив, SFT и SFT+DPO на тех же данных, полученных в результате поиска, либо соответствуют, либо уступают, либо полностью деградируют по сравнению с производительностью в режиме zero-shot; ReAct достигает более высоких пиков, но с большей дисперсией и затратами токенов. Эти результаты показывают, что поиск, основанный на выполнении, более надежен при ограниченных бюджетах трасс учителя.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.