Evoflux : Évolution en temps d'inférence de workflows d'outils exécutables pour agents compacts

Résumé

Les modèles de langage compacts réduisent les coûts, la latence et les risques de déploiement pour les agents outillés. Cependant, l'utilisation d'outils de type MCP exige davantage qu'un simple appel de fonctions isolé : un agent doit découvrir des outils à partir de catalogues en direct, satisfaire leurs schémas, préserver les dépendances entre les sorties intermédiaires et ancrer les réponses finales dans des preuves d'exécution. Les petits planificateurs génèrent souvent des graphes de workflow plausibles qui échouent lors de la résolution d'outils, de la validation des paramètres, du suivi des dépendances ou de l'exécution. Nous soutenons que ce mode d'échec est mal traité par la distillation sur petits corpus. Quelques centaines de traces d'enseignant peuvent enseigner le format du workflow, mais elles couvrent rarement le comportement de récupération nécessaire pour réparer des plans défaillants face à des catalogues d'outils changeants. Nous introduisons Evoflux, une méthode de recherche évolutive en inférence qui traite l'utilisation compacte d'outils comme la réparation de workflows d'outils exécutables. Elle fait évoluer des graphes de workflow typés grâce à des modifications structurées, un retour d'exécution, une intensité adaptative, une reconception méta-guidée et un élagage par diversité. Sur des tâches de MCP-Bench non vues, couvrant des serveurs MCP en direct et 250 outils, Evoflux augmente la faisabilité d'exécution d'environ 3 % à 17-24 % pour les petits planificateurs. En revanche, le SFT et le SFT+DPO sur les mêmes données issues de recherche, soit correspondent, soit sous-performent, soit s'effondrent en dessous de la performance zéro-shot ; ReAct atteint des pics plus élevés, mais avec une variance et un coût en tokens plus importants. Ces résultats montrent que la recherche ancrée dans l'exécution est plus fiable sous des budgets de traces d'enseignant limités.

English

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.