Combee: Escalonando o Aprendizado por Prompt para Agentes de Modelos de Linguagem de Autoaprimoramento
Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
April 5, 2026
Autores: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez
cs.AI
Resumo
Os recentes avanços na aprendizagem por prompts permitem que agentes de modelos de linguagem grande adquiram conhecimento relevante para tarefas a partir do contexto de inferência sem alterações de parâmetros. Por exemplo, métodos existentes (como ACE ou GEPA) podem aprender prompts de sistema para melhorar a precisão com base em execuções anteriores de agentes. No entanto, esses métodos concentram-se principalmente em configurações de agente único ou de baixo paralelismo. Isso limita fundamentalmente sua capacidade de aprender eficientemente de um grande conjunto de traços agentivos coletados. Seria eficiente e benéfico executar a aprendizagem de prompts em paralelo para acomodar a tendência crescente de aprender a partir de muitos traços agentivos ou execuções paralelas de agentes. No entanto, sem uma estratégia fundamentada para dimensionamento, os métodos atuais sofrem com degradação de qualidade em alto paralelismo. Para melhorar tanto a eficiência quanto a qualidade da aprendizagem por prompts, propomos o Combee, uma nova estrutura para dimensionar a aprendizagem de prompts paralelos para agentes de autoaprimoramento. O Combee acelera a aprendizagem e permite executar muitos agentes em paralelo, aprendendo com seus traços agregados sem degradação de qualidade. Para alcançar isso, o Combee aproveita varreduras paralelas e emprega um mecanismo de embaralhamento aumentado; o Combee também introduz um controlador dinâmico de tamanho de lote para equilibrar qualidade e atraso. Avaliações no AppWorld, Terminal-Bench, Formula e FiNER demonstram que o Combee alcança uma aceleração de até 17x em relação aos métodos anteriores, com precisão comparável ou superior e custo equivalente.
English
Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.