Combee: Promptleren opschalen voor zelfverbeterende taalmodelagenten

Samenvatting

Recente vooruitgang in promptlearning stelt taalmodelagenten in staat om taakrelevante kennis te verwerven uit de context tijdens inferentie, zonder parameterwijzigingen. Bestaande methoden (zoals ACE of GEPA) kunnen bijvoorbeeld systeemprompts leren om de nauwkeurigheid te verbeteren op basis van eerdere agentruns. Deze methoden richten zich echter voornamelijk op settings met één agent of een lage parallelisatiegraad. Dit beperkt fundamenteel hun vermogen om efficiënt te leren van een grote verzameling verzamelde agenttraces. Het zou efficiënt en voordelig zijn om promptlearning parallel uit te voeren, om tegemoet te komen aan de groeiende trend van leren uit vele agenttraces of parallelle agentuitvoeringen. Zonder een principiële strategie voor schaalvergroting lijden huidige methoden echter onder kwaliteitsverlies bij hoge parallelisatie. Om zowel de efficiëntie als de kwaliteit van promptlearning te verbeteren, stellen wij Combee voor, een nieuw raamwerk om parallelle promptlearning voor zelfverbeterende agents op te schalen. Combee versnelt het leerproces en maakt het mogelijk om veel agents parallel uit te voeren en tegelijkertijd te leren van hun geaggregeerde traces zonder kwaliteitsverlies. Om dit te bereiken, benut Combee parallelle scans en gebruikt het een augmented shuffle-mechanisme; Combee introduceert ook een dynamische batchgrootte-controller om kwaliteit en vertraging in evenwicht te brengen. Evaluaties op AppWorld, Terminal-Bench, Formula en FiNER tonen aan dat Combee een versnelling tot 17x bereikt ten opzichte van eerdere methoden, met vergelijkbare of betere nauwkeurigheid en gelijke kosten.

English

Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.

Combee: Promptleren opschalen voor zelfverbeterende taalmodelagenten

Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

Samenvatting

Support