Scalabilità dei Piccoli Agenti Tramite Aste Strategiche

Abstract

I modelli linguistici di piccole dimensioni sono sempre più considerati un approccio promettente ed economicamente vantaggioso all'IA agenziale, con i sostenitori che affermano siano sufficientemente capaci per i flussi di lavoro agentici. Tuttavia, sebbene gli agenti più piccoli possano eguagliare da vicino quelli più grandi su compiti semplici, rimane poco chiaro come le loro prestazioni scalino con la complessità del compito, quando diventano necessari modelli di grandi dimensioni e come sfruttare meglio gli agenti piccoli per carichi di lavoro a lungo orizzonte. In questo lavoro, dimostriamo empiricamente che le prestazioni degli agenti piccoli non riescono a scalare con la complessità del compito in attività di ricerca approfondita e di programmazione, e introduciamo le *Strategy Auctions for Workload Efficiency* (SALE), un framework per agenti ispirato alle piattaforme di lavoro autonomo. In SALE, gli agenti partecipano a un'asta presentando brevi piani strategici, che vengono valutati da un meccanismo sistematico di costo-valore e raffinati tramite una memoria condivisa dell'asta, consentendo un instradamento per singolo compito e un continuo auto-miglioramento senza dover addestrare un router separato o eseguire tutti i modelli fino al completamento. Su compiti di ricerca approfondita e di programmazione di varia complessità, SALE riduce la dipendenza dall'agente più grande del 53%, abbassa il costo complessivo del 35% e migliora costantemente il pass@1 dell'agente più grande, con un sovraccarico trascurabile oltre all'esecuzione della traccia finale. Al contrario, i router consolidati che si basano sulle descrizioni dei compiti hanno prestazioni inferiori all'agente più grande o non riescono a ridurre i costi – spesso entrambe le cose – sottolineando la loro scarsa adattabilità ai flussi di lavoro agentici. Questi risultati suggeriscono che, sebbene gli agenti piccoli possano essere insufficienti per carichi di lavoro complessi, possono essere efficacemente "scalati" attraverso un'allocazione coordinata dei compiti e un auto-miglioramento in fase di test. Più in generale, motivano una visione a livello di sistema dell'IA agenziale, in cui i guadagni prestazionali derivano meno da modelli individuali sempre più grandi e più da meccanismi di coordinamento ispirati al mercato che organizzano agenti eterogenei in ecosistemi efficienti e adattivi.

English

Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.

Scalabilità dei Piccoli Agenti Tramite Aste Strategiche

Scaling Small Agents Through Strategy Auctions

Abstract

Support