MOCHA : Recuit de Chebyshev multi-objectif pour l'optimisation des compétences d'agent

Résumé

Les agents LLM organisent leur comportement via des compétences — des spécifications structurées en langage naturel régissant la manière dont un agent raisonne, récupère de l'information et répond. Contrairement aux prompts monolithiques, les compétences sont des artefacts multi-champs soumis à des contraintes matérielles strictes de plateforme : les champs de description sont tronqués pour le routage, les corps d'instruction sont condensés par divulgation progressive, et les compétences co-résidentes se disputent des fenêtres de contexte limitées. Ces contraintes rendent l'optimisation des compétences intrinsèquement multi-objectifs : une compétence doit simultanément maximiser sa performance sur la tâche et satisfaire les limites de la plateforme. Pourtant, les optimiseurs de prompts existants ignorent ces compromis ou les réduisent à une somme pondérée, manquant ainsi les variantes Pareto-optimales dans les régions d'objectifs non convexes. Nous introduisons MOCHA (Multi-Objective Chebyshev Annealing), qui remplace la sélection mono-objectif par une scalarisation de Chebyshev — couvrant l'ensemble du front de Pareto, y compris les régions non convexes — combinée à un recuit exponentiel qui passe de l'exploration à l'exploitation. Dans nos expériences menées sur six compétences d'agent diverses — où toutes les méthodes partagent le même opérateur de mutation multi-objectif et les lignes de base reçoivent un retour textuel identique par objectif — les optimiseurs existants ne parviennent pas à améliorer la compétence initiale sur 4 des 6 tâches : 1000 déploiements ne produisent aucun progrès. MOCHA réussit sur chaque tâche, obtenant une amélioration relative de 7,5 % de la précision moyenne par rapport à la ligne de base la plus performante (jusqu'à 14,9 % sur FEVER et 10,4 % sur TheoremQA), tout en découvrant deux fois plus de variantes de compétences Pareto-optimales.

English

LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.