ChatPaper.aiChatPaper

Combee: Escalado del Aprendizaje por Prompting para Agentes de Modelos de Lenguaje Automejorables

Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

April 5, 2026
Autores: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez
cs.AI

Resumen

Los recientes avances en el aprendizaje por prompts permiten a los agentes de modelos de lenguaje grandes adquirir conocimientos relevantes para la tarea a partir del contexto en tiempo de inferencia sin cambios en los parámetros. Por ejemplo, métodos existentes (como ACE o GEPA) pueden aprender prompts del sistema para mejorar la precisión basándose en ejecuciones previas del agente. Sin embargo, estos métodos se centran principalmente en entornos de agente único o de bajo paralelismo. Esto limita fundamentalmente su capacidad para aprender eficientemente de un gran conjunto de trazas agentivas recopiladas. Sería eficiente y beneficioso ejecutar el aprendizaje por prompts en paralelo para adaptarse a la creciente tendencia de aprender de muchas trazas agentivas o ejecuciones paralelas de agentes. No obstante, sin una estrategia fundamentada para la escalabilidad, los métodos actuales sufren una degradación de la calidad con un alto paralelismo. Para mejorar tanto la eficiencia como la calidad del aprendizaje por prompts, proponemos Combee, un marco novedoso para escalar el aprendizaje paralelo de prompts para agentes de auto-mejora. Combee acelera el aprendizaje y permite ejecutar muchos agentes en paralelo mientras aprende de sus trazas agregadas sin degradación de la calidad. Para lograrlo, Combee aprovecha las exploraciones paralelas y emplea un mecanismo de barajado aumentado; Combee también introduce un controlador dinámico del tamaño del lote para equilibrar la calidad y la demora. Las evaluaciones en AppWorld, Terminal-Bench, Formula y FiNER demuestran que Combee logra una aceleración de hasta 17 veces sobre métodos anteriores con una precisión comparable o mejor y un costo equivalente.
English
Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.
PDF212April 10, 2026