CL-bench: Een benchmark voor contextueel leren
CL-bench: A Benchmark for Context Learning
February 3, 2026
Auteurs: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI
Samenvatting
Huidige taalmodel(len) (TM's) blinken uit in redeneren over prompts met behulp van vooraf getrainde kennis. Echter, taken in de praktijk zijn veel complexer en contextafhankelijk: modellen moeten leren uit taakspecifieke context en nieuwe kennis benutten die verder gaat dan wat tijdens de pre-training is geleerd om te kunnen redeneren en taken op te lossen. Wij noemen dit vermogen **contextleren**, een cruciaal vermogen dat mensen van nature bezitten maar grotendeels over het hoofd is gezien. Daartoe introduceren wij CL-bench, een real-world benchmark bestaande uit 500 complexe contexten, 1.899 taken en 31.607 beoordelingsrubrics, allemaal vervaardigd door ervaren domeinexperts. Elke taak is zo ontworpen dat de nieuwe inhoud die nodig is om deze op te lossen, vervat zit in de bijbehorende context. Het oplossen van taken in CL-bench vereist dat modellen leren uit de context, variërend van nieuwe domeinspecifieke kennis, regelsystemen en complexe procedures tot wetten afgeleid van empirische gegevens, die allemaal afwezig zijn tijdens de pre-training. Dit gaat ver voorbij taken met lange contexten die vooral retrieval of leesbegrip testen, en *in-context learning* taken, waarbij modellen eenvoudige taakpatronen leren via instructies en demonstraties. Onze evaluaties van tien toonaangevende TM's tonen aan dat modellen gemiddeld slechts 17,2% van de taken oplossen. Zelfs het best presterende model, GPT-5.1, lost slechts 23,7% op, wat aantoont dat TM's effectief contextleren nog niet beheersen. Dit vormt een kritieke bottleneck voor het aanpakken van real-world, complexe contextafhankelijke taken. CL-bench vertegenwoordigt een stap naar het bouwen van TM's met dit fundamentele vermogen, om ze intelligenter te maken en hun inzet in real-world scenario's te bevorderen.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.