MOCHA: Multi-objectief Chebyshev-annealing voor optimalisatie van agentvaardigheden

Samenvatting

LLM-agenten organiseren gedrag via vaardigheden – gestructureerde, natuurlijk-taal specificaties die bepalen hoe een agent redeneert, informatie ophaalt en reageert. In tegenstelling tot monolithische prompts zijn vaardigheden artefacten met meerdere velden die onderworpen zijn aan harde platformbeperkingen: beschrijvingsvelden worden afgekapt voor routering, instructielichamen worden gecomprimeerd via progressieve onthulling, en naast elkaar bestaande vaardigheden concurreren om beperkte contextvensters. Deze beperkingen maken optimalisatie van vaardigheden inherent multi-objectief: een vaardigheid moet tegelijkertijd taakprestatie maximaliseren en voldoen aan platformlimieten. Toch negeren bestaande prompt-optimizers deze afwegingen of reduceren ze tot een gewogen som, waarbij Pareto-optimale varianten in niet-convexe objectiefgebieden worden gemist. Wij introduceren MOCHA (Multi-Objective Chebyshev Annealing), dat enkelvoudige-objectiefselectie vervangt door Chebyshev-scalarisatie – die het volledige Pareto-front bestrijkt, inclusief niet-convexe gebieden – gecombineerd met exponentiële annealing die overgaat van exploratie naar exploitatie. In onze experimenten met zes uiteenlopende agentvaardigheden – waarbij alle methoden dezelfde multi-objectieve mutatie-operator delen en baselines identieke, per-objectief tekstuele feedback krijgen – slagen bestaande optimizers er niet in om de initiële vaardigheid te verbeteren in 4 van de 6 taken: 1000 rollouts leveren nul vooruitgang op. MOCHA doorbreekt deze impasse bij elke taak, met een relatieve verbetering van 7,5% in gemiddelde correctheid ten opzichte van de sterkste baseline (tot 14,9% op FEVER en 10,4% op TheoremQA), terwijl het tweemaal zoveel Pareto-optimale vaardigheidsvarianten ontdekt.

English

LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.