Escalando Agentes Pequeños Mediante Subastas de Estrategias
Scaling Small Agents Through Strategy Auctions
February 2, 2026
Autores: Lisa Alazraki, William F. Shen, Yoram Bachrach, Akhil Mathur
cs.AI
Resumen
Los modelos de lenguaje pequeños son cada vez más vistos como un enfoque prometedor y rentable para la IA agentiva, con defensores que afirman que son lo suficientemente capaces para flujos de trabajo agentivos. Sin embargo, aunque los agentes pequeños pueden igualar estrechamente a los más grandes en tareas simples, sigue sin estar claro cómo escala su rendimiento con la complejidad de la tarea, cuándo los modelos grandes se vuelven necesarios y cómo aprovechar mejor los agentes pequeños para cargas de trabajo de horizonte largo. En este trabajo, demostramos empíricamente que el rendimiento de los agentes pequeños no escala con la complejidad de la tarea en búsquedas profundas y tareas de programación, e introducimos Subastas de Estrategias para la Eficiencia de Cargas de Trabajo (SALE), un marco de agente inspirado en los mercados de trabajadores autónomos. En SALE, los agentes pujan con planes estratégicos breves, que son puntuados por un mecanismo sistemático de costo-valor y refinados mediante una memoria de subasta compartida, permitiendo el enrutamiento por tarea y la auto-mejora continua sin necesidad de entrenar un enrutador separado o ejecutar todos los modelos hasta su finalización. En diversas tareas de búsqueda profunda y programación de complejidad variable, SALE reduce la dependencia del agente más grande en un 53%, disminuye el costo general en un 35% y mejora consistentemente el pass@1 del agente más grande con solo una sobrecarga insignificante más allá de ejecutar la traza final. En contraste, los enrutadores establecidos que se basan en descripciones de tareas tienen un rendimiento inferior al del agente más grande o no logran reducir el costo —a menudo ambas cosas—, lo que subraya su mala adaptación a los flujos de trabajo agentivos. Estos resultados sugieren que, aunque los agentes pequeños pueden ser insuficientes para cargas de trabajo complejas, pueden "escalarse" eficazmente mediante una asignación de tareas coordinada y una auto-mejora en tiempo de prueba. En un sentido más amplio, motivan una visión a nivel de sistemas de la IA agentiva en la que las ganancias de rendimiento provienen menos de modelos individuales cada vez más grandes y más de mecanismos de coordinación inspirados en el mercado que organizan a agentes heterogéneos en ecosistemas eficientes y adaptativos.
English
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.