ChatPaper.aiChatPaper

LOCA-bench: Benchmarking von Sprachagenten unter kontrollierbarem und extremem Kontextwachstum

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

February 8, 2026
papers.authors: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) sind zunehmend in der Lage, langandauernde, realweltliche Aufgaben auszuführen. Allerdings verschlechtert sich ihre Zuverlässigkeit oft mit wachsender Kontextmenge, ein Phänomen, das als "Kontextverfall" bekannt ist. Bestehende Benchmarks für langen Kontext konzentrieren sich hauptsächlich auf Einzelschritt-Szenarien, die die Fähigkeit eines Modells bewerten, Informationen aus einem langen Textabschnitt abzurufen. In realistischen Szenarien müssen LLMs jedoch oft als Agenten agieren, die Umgebungen erkunden, Anweisungen und Pläne befolgen, nützliche Informationen extrahieren und korrekte Aktionen unter dynamisch wachsendem Kontext vorhersagen. Um Sprachagenten in solchen Settings zu bewerten, führen wir LOCA-bench (eine Benchmark für LOng-Context Agents) ein. Ausgehend von einer Aufgabenaufforderung nutzt LOCA-bench eine automatisierte und skalierbare Steuerung von Umweltzuständen, um die Kontextlänge des Agenten zu regulieren. Dieser Aufbau ermöglicht es LOCA-bench, die Kontextlänge auf kontrollierte Weise potenziell bis ins Unendliche zu erweitern, während die zugrundeliegende Aufgaben-Semantik unverändert bleibt. LOCA-bench bewertet Sprachagenten als Kombination von Modellen und Gerüststrukturen, einschließlich verschiedener Kontextmanagement-Strategien. Während die Agentenleistung im Allgemeinen abnimmt, wenn die Umweltzustände komplexer werden, können fortschrittliche Kontextmanagement-Techniken die Gesamterfolgsquote erheblich verbessern. Wir veröffentlichen LOCA-bench als Open Source, um eine Plattform zur Bewertung von Modellen und Gerüststrukturen in langen Kontexten und agentenbasierten Szenarien bereitzustellen: https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench
PDF232February 11, 2026