MOCHA: Многокритериальный чебышёвский отжиг для оптимизации навыков агента
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization
May 19, 2026
Авторы: Md Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) организуют поведение через навыки — структурированные спецификации на естественном языке, которые определяют, как агент рассуждает, извлекает информацию и отвечает. В отличие от монолитных промптов, навыки представляют собой многопольные артефакты, подчиняющиеся жестким ограничениям платформы: поля описаний обрезаются для маршрутизации, тела инструкций сжимаются с помощью прогрессивного раскрытия, а сосуществующие навыки конкурируют за ограниченные контекстные окна. Эти ограничения делают оптимизацию навыков по своей сути многоцелевой: навык должен одновременно максимизировать производительность задачи и удовлетворять лимитам платформы. Тем не менее, существующие оптимизаторы промптов либо игнорируют эти компромиссы, либо сводят их к взвешенной сумме, упуская парето-оптимальные варианты в невыпуклых областях целевых функций. Мы представляем MOCHA (Multi-Objective Chebyshev Annealing — многоцелевой чебышёвский отжиг), который заменяет одноцелевой отбор чебышёвской скаляризацией, охватывающей весь фронт Парето, включая невыпуклые области, в сочетании с экспоненциальным отжигом, обеспечивающим переход от исследования к эксплуатации. В наших экспериментах с шестью разнообразными навыками агентов — где все методы используют один и тот же многоцелевой оператор мутации, а базовые методы получают идентичную текстовую обратную связь по каждой цели — существующие оптимизаторы не могут улучшить исходный навык в 4 из 6 задач: 1000 прогонов не дают никакого прогресса. MOCHA прорывается в каждой задаче, достигая относительного улучшения средней корректности на 7,5% по сравнению с сильнейшим базовым методом (до 14,9% на FEVER и 10,4% на TheoremQA), обнаруживая при этом вдвое больше парето-оптимальных вариантов навыков.
English
LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.