Benchmark-Test-Time-Scaling von allgemeinen LLM-Agenten

Zusammenfassung

LLM-Agents werden zunehmend als allgemeine Systeme erwartet, die in der Lage sind, offene Benutzeranfragen zu lösen. Während bestehende Benchmarks sich auf domänenspezifische Umgebungen für die Entwicklung spezialisierter Agenten konzentrieren, erfordert die Bewertung allgemeiner Agenten realistischere Settings, die sie herausfordern, über mehrere Fähigkeiten und Werkzeuge hinweg in einer einheitlichen Umgebung zu operieren. Wir stellen General AgentBench vor, einen Benchmark, der einen solchen einheitlichen Rahmen zur Bewertung allgemeiner LLM-Agents in den Bereichen Suche, Programmierung, logisches Schlussfolgern und Werkzeugnutzung bereitstellt. Mithilfe von General AgentBench untersuchen wir systematisch Skalierungsverhalten zur Testzeit unter sequenzieller Skalierung (iterative Interaktion) und paralleler Skalierung (Sampling multipler Trajektorien). Die Evaluation von zehn führenden LLM-Agents zeigt eine erhebliche Leistungsverschlechterung beim Wechsel von domänenspezifischen Bewertungen zu diesem Allgemein-Agenten-Setting. Darüber hinaus stellen wir fest, dass keine der Skalierungsmethoden in der Praxis effektive Leistungsverbesserungen bringt, aufgrund zweier grundlegender Limitationen: Kontextobergrenze bei sequenzieller Skalierung und Verifizierungslücke bei paralleler Skalierung. Der Code ist öffentlich verfügbar unter https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Benchmark-Test-Time-Scaling von allgemeinen LLM-Agenten

Benchmark Test-Time Scaling of General LLM Agents

Zusammenfassung

Support