Combee : Mise à l'échelle de l'apprentissage par prompt pour des agents de modèle de langage auto-améliorants
Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
April 5, 2026
Auteurs: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez
cs.AI
Résumé
Les récentes avancées en apprentissage par prompt permettent aux agents de grands modèles linguistiques d'acquérir des connaissances pertinentes pour une tâche à partir du contexte d'inférence sans modification des paramètres. Par exemple, les méthodes existantes (comme ACE ou GEPA) peuvent apprendre des prompts système pour améliorer la précision en se basant sur des exécutions antérieures de l'agent. Cependant, ces méthodes se concentrent principalement sur des configurations à agent unique ou à faible parallélisme. Cela limite fondamentalement leur capacité à apprendre efficacement à partir d'un large ensemble de traces agentielles collectées. Il serait efficace et bénéfique d'exécuter l'apprentissage par prompt en parallèle pour s'adapter à la tendance croissante d'apprentissage à partir de nombreuses traces agentielles ou d'exécutions parallèles d'agents. Pourtant, sans stratégie principée pour la mise à l'échelle, les méthodes actuelles souffrent d'une dégradation de la qualité avec un haut niveau de parallélisme. Pour améliorer à la fois l'efficacité et la qualité de l'apprentissage par prompt, nous proposons Combee, un nouveau cadre pour mettre à l'échelle l'apprentissage parallèle de prompts pour des agents auto-améliorants. Combee accélère l'apprentissage et permet d'exécuter de nombreux agents en parallèle tout en apprenant de leurs traces agrégées sans dégradation de la qualité. Pour y parvenir, Combee tire parti de scans parallèles et utilise un mécanisme de mélange augmenté ; Combee introduit également un contrôleur dynamique de la taille des lots pour équilibrer qualité et délai. Les évaluations sur AppWorld, Terminal-Bench, Formula et FiNER démontrent que Combee atteint une accélération allant jusqu'à 17x par rapport aux méthodes précédentes, avec une précision comparable ou supérieure et un coût équivalent.
English
Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.