MOCHA: Recozimento de Chebyshev Multiobjetivo para Otimização de Habilidades de Agentes

Resumo

Agentes LLM organizam o comportamento por meio de habilidades — especificações estruturadas em linguagem natural que governam como um agente raciocina, recupera informações e responde. Diferentemente de prompts monolíticos, as habilidades são artefatos de múltiplos campos sujeitos a restrições rígidas da plataforma: campos de descrição são truncados para roteamento, corpos de instrução são compactados por meio de revelação progressiva, e habilidades co-residentes competem por janelas de contexto limitadas. Essas restrições tornam a otimização de habilidades inerentemente multiobjetivo: uma habilidade deve simultaneamente maximizar o desempenho da tarefa e satisfazer os limites da plataforma. No entanto, os otimizadores de prompt existentes ignoram essas compensações ou as reduzem a uma soma ponderada, perdendo variantes ótimas de Pareto em regiões objetivas não convexas. Apresentamos o MOCHA (Multi-Objective Chebyshev Annealing – Recozimento Chebyshev Multiobjetivo), que substitui a seleção mono-objetivo pela escalarização de Chebyshev — cobrindo toda a fronteira de Pareto, incluindo regiões não convexas — combinada com recozimento exponencial que faz a transição da exploração para o aproveitamento. Em nossos experimentos com seis habilidades diversas de agentes — onde todos os métodos compartilham o mesmo operador de mutação multiobjetivo e as linhas de base recebem feedback textual idêntico por objetivo — os otimizadores existentes falham em melhorar a habilidade inicial em 4 de 6 tarefas: 1000 execuções produzem zero progresso. O MOCHA avança em todas as tarefas, alcançando uma melhoria relativa de 7,5% na correção média em relação à linha de base mais forte (até 14,9% no FEVER e 10,4% no TheoremQA), além de descobrir o dobro de variantes ótimas de Pareto de habilidades.

English

LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.