ChatPaper.aiChatPaper

작은 에이전트의 확장을 위한 전략 경매

Scaling Small Agents Through Strategy Auctions

February 2, 2026
저자: Lisa Alazraki, William F. Shen, Yoram Bachrach, Akhil Mathur
cs.AI

초록

소규모 언어 모델은 에이전트 AI에 대한 비용 효율적이고 유망한 접근법으로 점차 각광받으며, 일각에서는 에이전트 워크플로우에 충분히 활용 가능하다는 주장도 제기되고 있다. 그러나 소규모 에이전트는 단순 작업에서 대규모 모델과 유사한 성능을 보일 수 있지만, 작업 복잡도에 따른 성능 확장성, 대규모 모델이 필요한 시점, 그리고 장기적 작업 부하에 소규모 에이전트를 효과적으로 활용하는 방법은 여전히 불분명하다. 본 연구에서는 심층 검색 및 코딩 작업에서 소규모 에이전트의 성능이 작업 복잡도에 비례하여 확장되지 않음을 실증적으로 보여주고, 프리랜서 시장에서 영감을 받은 에이전트 프레임워크인 SALE(전략 경매를 통한 작업 효율성)을 제안한다. SALE에서는 에이전트가 간략한 전략 계획을 입찰하며, 체계적인 비용-가치 메커니즘으로 점수화되고 공유 경매 메모리를 통해 개선되어 별도의 라우터를 학습하거나 모든 모델을 완료까지 실행하지 않고도 작업별 라우팅과 지속적인 자기 개선이 가능하다. 다양한 복잡도의 심층 검색 및 코딩 작업에서 SALE은 최대 규모 에이전트 의존도를 53% 줄이고, 전체 비용을 35% 절감하며, 최종 실행 트레이스 외에 무시할 수 있는 오버헤드만으로 최대 규모 에이전트의 pass@1 성능을 지속적으로 향상시켰다. 이와 대조적으로 작업 설명에 의존하는 기존 라우터들은 최대 규모 에이전트보다 낮은 성능을 보이거나 비용 절감에 실패하는 경우가 많아 에이전트 워크플로우에 부적합함을 확인했다. 이러한 결과는 소규모 에이전트가 복잡한 작업 부하에는 부적절할 수 있지만, 조율된 작업 할당과 실행 시점 자기 개선을 통해 효과적으로 "규모 확장"이 가능함을 시사한다. 더 넓게 보면, 이는 개별 모델의 규모 확대보다 이기종 에이전트를 효율적이고 적응적인 생태계로 조직하는 시장 기반 조율 메커니즘을 통해 성능 향상을 꾀하는 시스템 수준의 에이전트 AI 관점을 지지한다.
English
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.
PDF21February 5, 2026