CL-bench: Ein Benchmark für kontextuelles Lernen
CL-bench: A Benchmark for Context Learning
February 3, 2026
papers.authors: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI
papers.abstract
Aktuelle Sprachmodelle (LMs) sind hervorragend im Umgang mit Prompts auf Basis ihres vortrainierten Wissens. Allerdings sind reale Aufgaben weitaus komplexer und kontextabhängig: Modelle müssen aus aufgabenspezifischen Kontexten lernen und neues Wissen jenseits der Vortrainingsinhalte nutzen, um Aufgaben zu lösen und Schlussfolgerungen zu ziehen. Wir bezeichnen diese Fähigkeit als Kontextlernen – eine grundlegende menschliche Kompetenz, die bisher weitgehend übersehen wurde. Daher stellen wir CL-bench vor, einen realistischen Benchmark mit 500 komplexen Kontexten, 1.899 Aufgaben und 31.607 Bewertungskriterien, die allesamt von erfahrenen Domain-Experten entwickelt wurden. Jede Aufgabe ist so gestaltet, dass die zu ihrer Lösung benötigten Informationen vollständig im entsprechenden Kontext enthalten sind. Die Bearbeitung von CL-bench-Aufgaben erfordert, dass Modelle aus dem Kontext lernen – von domänenspezifischem Wissen über Regelwerke und komplexe Prozeduren bis hin zu empirisch abgeleiteten Gesetzmäßigkeiten, die allesamt nicht im Vortraining enthalten waren. Dies geht weit über Langkontext-Aufgaben hinaus, die primär Abruf- oder Leseverständnis testen, sowie über In-Context-Learning-Aufgaben, bei denen Modelle lediglich einfache Aufgabenmuster anhand von Instruktionen und Beispielen lernen. Unsere Evaluierung von zehn führenden Sprachmodellen ergab, dass diese durchschnittlich nur 17,2% der Aufgaben lösen. Selbst das leistungsstärkste Modell, GPT-5.1, löst lediglich 23,7%, was zeigt, dass Sprachmodelle noch kein effektives Kontextlernen beherrschen – ein kritischer Engpass für die Bewältigung realer, kontextabhängiger Aufgaben. CL-bench ist ein Schritt towards die Entwicklung von Sprachmodellen mit dieser grundlegenden Fähigkeit, um sie intelligenter zu machen und ihren Einsatz in realen Szenarien voranzutreiben.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.