Combee: 자기 발전형 언어 모델 에이전트를 위한 확장 가능한 프롬프트 학습
Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
April 5, 2026
저자: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez
cs.AI
초록
최근 프롬프트 학습의 발전으로 대규모 언어 모델 에이전트는 매개변수 변경 없이 추론 시점 컨텍스트에서 작업 관련 지식을 습득할 수 있게 되었습니다. 예를 들어, 기존 방법(ACE 또는 GEPA 등)은 이전 에이전트 실행 기록을 바탕으로 정확도를 향상시키기 위한 시스템 프롬프트를 학습할 수 있습니다. 그러나 이러한 방법들은 주로 단일 에이전트 또는 낮은 병렬성 환경에 중점을 둡니다. 이는 근본적으로 수집된 대량의 에이전트 트레이스로부터 효율적으로 학습하는 능력을 제한합니다. 많은 에이전트 트레이스 또는 병렬 에이전트 실행으로부터 학습하는 증가 추세를 수용하기 위해 프롬프트 학습을 병렬로 실행하는 것은 효율적이고 유익할 것입니다. 그러나 확장을 위한 원칙적인 전략 없이는 현재 방법들은 높은 병렬성에서 품질 저하를 겪습니다. 프롬프트 학습의 효율성과 품질을 모두 개선하기 위해, 우리는 자기 개선 에이전트를 위한 병렬 프롬프트 학습 확장을 위한 새로운 프레임워크인 Combee를 제안합니다. Combee는 학습 속도를 높이고 품질 저하 없이 집계된 트레이스로부터 학습하면서 많은 에이전트를 병렬로 실행할 수 있게 합니다. 이를 위해 Combee는 병렬 스캔을 활용하고 증강 셔플 메커니즘을 채택하며, 품질과 지연 시간의 균형을 맞추기 위해 동적 배치 크기 컨트롤러를 도입합니다. AppWorld, Terminal-Bench, Formula 및 FiNER에 대한 평가 결과, Combee는 기존 방법 대비 최대 17배의 속도 향상을 달성하면서 유사하거나 더 나은 정확도와 동등한 비용을 보여주었습니다.
English
Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.