Combee: Skalierbares Prompt-Lernen für sich selbst verbessernde Sprachmodell-Agenten

Zusammenfassung

Jüngste Fortschritte im Prompt-Learning ermöglichen es Agenten auf Basis großer Sprachmodelle, aufgabenspezifisches Wissen aus Inferenz-Kontexten zu erwerben, ohne dass Parameteränderungen notwendig sind. Beispielsweise können bestehende Methoden (wie ACE oder GEPA) System-Prompts lernen, um die Genauigkeit auf der Grundlage vorheriger Agentenläufe zu verbessern. Diese Methoden konzentrieren sich jedoch primär auf Einzelagenten- oder gering-parallele Settings. Dies begrenzt grundsätzlich ihre Fähigkeit, effizient aus einer großen Menge gesammelter Agententraces zu lernen. Es wäre effizient und vorteilhaft, Prompt-Learning parallel durchzuführen, um dem wachsenden Trend des Lernens aus vielen Agententraces oder parallelen Agentenausführungen gerecht zu werden. Doch ohne eine prinzipienbasierte Skalierungsstrategie leiden aktuelle Methoden unter Qualitätseinbußen bei hoher Parallelität. Um sowohl die Effizienz als auch die Qualität des Prompt-Learnings zu verbessern, schlagen wir Combee vor, ein neuartiges Framework zur Skalierung parallelen Prompt-Learnings für sich selbst verbessernde Agenten. Combee beschleunigt das Lernen und ermöglicht den parallelen Betrieb vieler Agenten, während gleichzeitig aus ihren aggregierten Traces gelernt wird, ohne Qualitätsverluste. Um dies zu erreichen, nutzt Combee parallele Scans und setzt einen erweiterten Shuffle-Mechanismus ein; Combee führt zudem eine dynamische Batch-Größensteuerung ein, um Qualität und Verzögerung auszubalancieren. Evaluationen auf AppWorld, Terminal-Bench, Formula und FiNER zeigen, dass Combee eine bis zu 17-fache Beschleunigung gegenüber früheren Methoden bei vergleichbarer oder besserer Genauigkeit und äquivalenten Kosten erreicht.

English

Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.

Combee: Skalierbares Prompt-Lernen für sich selbst verbessernde Sprachmodell-Agenten

Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

Zusammenfassung

Support