ChatPaper.aiChatPaper

CL-bench : Un benchmark pour l'apprentissage contextuel

CL-bench: A Benchmark for Context Learning

February 3, 2026
papers.authors: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI

papers.abstract

Les modèles linguistiques (LM) actuels excellent dans le raisonnement sur des prompts en utilisant des connaissances pré-entraînées. Cependant, les tâches du monde réel sont bien plus complexes et dépendantes du contexte : les modèles doivent apprendre à partir du contexte spécifique à la tâche et exploiter de nouvelles connaissances au-delà de celles acquises lors du pré-entraînement pour raisonner et résoudre les tâches. Nous nommons cette capacité l'apprentissage contextuel (context learning), une aptitude cruciale que les humains possèdent naturellement mais qui a été largement négligée. Pour cela, nous présentons CL-bench, un benchmark du monde réel composé de 500 contextes complexes, 1 899 tâches et 31 607 grilles d'évaluation, tous conçus par des experts domainaux expérimentés. Chaque tâche est conçue de telle sorte que le nouveau contenu nécessaire à sa résolution est contenu dans le contexte correspondant. Résoudre les tâches de CL-bench nécessite que les modèles apprennent à partir du contexte, qu'il s'agisse de nouvelles connaissances spécifiques à un domaine, de systèmes de règles, de procédures complexes ou de lois dérivées de données empiriques, toutes absentes du pré-entraînement. Cela va bien au-delà des tâches à long contexte qui testent principalement la récupération ou la compréhension écrite, et des tâches d'apprentissage en contexte (in-context learning), où les modèles apprennent des schémas de tâches simples via des instructions et des démonstrations. Nos évaluations de dix LM de pointe montrent que les modèles ne résolvent en moyenne que 17,2 % des tâches. Même le modèle le plus performant, GPT-5.1, n'en résout que 23,7 %, révélant que les LM n'ont pas encore acquis un apprentissage contextuel efficace, ce qui constitue un goulot d'étranglement critique pour aborder les tâches réelles complexes dépendantes du contexte. CL-bench représente une étape vers la construction de LM dotés de cette capacité fondamentale, les rendant plus intelligents et faisant progresser leur déploiement dans des scénarios du monde réel.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.
PDF181February 6, 2026