MOCHA: Recocido de Chebyshev Multiobjetivo para la Optimización de Habilidades de Agentes

Resumen

Los agentes de LLM organizan su comportamiento mediante habilidades: especificaciones estructuradas en lenguaje natural que rigen cómo un agente razona, recupera información y responde. A diferencia de las indicaciones monolíticas, las habilidades son artefactos de múltiples campos que están sujetos a restricciones estrictas de la plataforma: los campos de descripción se truncan para el enrutamiento, los cuerpos de instrucción se compactan mediante divulgación progresiva y las habilidades que coexisten compiten por ventanas de contexto limitadas. Estas restricciones hacen que la optimización de habilidades sea inherentemente multiobjetivo: una habilidad debe maximizar simultáneamente el rendimiento en la tarea y satisfacer los límites de la plataforma. Sin embargo, los optimizadores de indicaciones existentes ignoran estas compensaciones o las colapsan en una suma ponderada, perdiendo variantes Pareto-óptimas en regiones objetivas no convexas. Presentamos MOCHA (Recocido Multiobjetivo de Chebyshev), que reemplaza la selección monoobjetivo por la escalarización de Chebyshev —cubriendo todo el frente de Pareto, incluyendo regiones no convexas— combinada con un recocido exponencial que transita de la exploración a la explotación. En nuestros experimentos con seis habilidades diversas de agentes —donde todos los métodos comparten el mismo operador de mutación multiobjetivo y las líneas base reciben retroalimentación textual idéntica por objetivo— los optimizadores existentes no logran mejorar la habilidad semilla en 4 de 6 tareas: 1000 ejecuciones producen cero progreso. MOCHA supera todas las tareas, logrando una mejora relativa del 7.5% en la precisión media sobre la línea base más fuerte (hasta un 14.9% en FEVER y un 10.4% en TheoremQA), mientras descubre el doble de variantes de habilidad Pareto-óptimas.

English

LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.