CL-bench: Um Benchmark para Aprendizagem Contextual
CL-bench: A Benchmark for Context Learning
February 3, 2026
Autores: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI
Resumo
Os modelos de linguagem (MLs) atuais destacam-se no raciocínio sobre instruções utilizando conhecimento pré-treinado. No entanto, tarefas do mundo real são muito mais complexas e dependentes de contexto: os modelos devem aprender com contextos específicos da tarefa e alavancar novos conhecimentos além dos aprendidos durante o pré-treinamento para raciocinar e resolver tarefas. Denominamos esta capacidade de **aprendizagem contextual**, uma habilidade crucial que os humanos possuem naturalmente, mas que tem sido largamente negligenciada. Para tal, apresentamos o **CL-bench**, um benchmark do mundo real composto por 500 contextos complexos, 1.899 tarefas e 31.607 rubricas de verificação, todos elaborados por especialistas de domínio experientes. Cada tarefa é concebida de modo que o novo conteúdo necessário para a resolver está contido no contexto correspondente. Resolver tarefas no CL-bench exige que os modelos aprendam com o contexto, desde novos conhecimentos específicos de domínio, sistemas de regras e procedimentos complexos até leis derivadas de dados empíricos, todos ausentes do pré-treinamento. Isto vai muito além de tarefas de contexto longo que testam principalmente recuperação ou compreensão de leitura, e de tarefas de aprendizagem *in-context*, onde os modelos aprendem padrões simples de tarefas através de instruções e demonstrações. As nossas avaliações de dez MLs de fronteira revelam que os modelos resolvem em média apenas 17,2% das tarefas. Mesmo o modelo com melhor desempenho, o GPT-5.1, resolve apenas 23,7%, revelando que os MLs ainda não alcançaram uma aprendizagem contextual eficaz, o que constitui um estrangulamento crítico para enfrentar tarefas do mundo real, complexas e dependentes de contexto. O CL-bench representa um passo na direção de construir MLs com esta capacidade fundamental, tornando-os mais inteligentes e avançando a sua implementação em cenários do mundo real.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.