Бенчмарк-тестирование масштабирования общих LLM-агентов в режиме реального времени

Аннотация

Ожидается, что LLM-агенты будут функционировать как универсальные системы, способные решать неограниченные пользовательские запросы. В то время как существующие бенчмарки ориентированы на предметно-ориентированные среды для разработки специализированных агентов, оценка универсальных агентов требует более реалистичных условий, которые проверяют их способность работать с множеством навыков и инструментов в рамках единой среды. Мы представляем General AgentBench — бенчмарк, который предоставляет такую унифицированную структуру для оценки общих LLM-агентов в областях поиска, программирования, логического мышления и использования инструментов. Используя General AgentBench, мы систематически изучаем поведение при масштабировании на этапе тестирования в условиях последовательного масштабирования (итеративное взаимодействие) и параллельного масштабирования (сэмплирование множества траекторий). Оценка десяти ведущих LLM-агентов выявила значительное снижение производительности при переходе от предметно-ориентированных оценок к условиям общего агента. Более того, мы обнаружили, что ни одна из методологий масштабирования на практике не приводит к эффективному улучшению производительности из-за двух фундаментальных ограничений: контекстного потолка при последовательном масштабировании и верификационного разрыва при параллельном масштабировании. Код общедоступен по адресу https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Бенчмарк-тестирование масштабирования общих LLM-агентов в режиме реального времени

Benchmark Test-Time Scaling of General LLM Agents

Аннотация

Support