ChatPaper.aiChatPaper

CL-bench: Бенчмарк для контекстного обучения

CL-bench: A Benchmark for Context Learning

February 3, 2026
Авторы: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI

Аннотация

Современные языковые модели (ЯМ) преуспевают в рассуждениях на основе промптов, используя предварительно обученные знания. Однако реальные задачи гораздо сложнее и контекстно-зависимы: модели должны обучаться на основе специфичного для задачи контекста и использовать новые знания, выходящие за рамки усвоенных в ходе предварительного обучения, чтобы рассуждать и решать задачи. Мы называем эту способность **контекстным обучением** — ключевым умением, которым люди обладают от природы, но которое до сих пор в значительной степени игнорировалось. С этой целью мы представляем CL-bench — эталонный набор данных для реальных задач, состоящий из 500 сложных контекстов, 1 899 задач и 31 607 оценочных критериев, созданных опытными экспертами в предметных областях. Каждая задача разработана таким образом, что новая информация, необходимая для её решения, содержится в соответствующем контексте. Решение задач в CL-bench требует от моделей способности обучаться на основе контекста, который может включать новые предметные знания, системы правил, сложные процедуры или законы, выведенные из эмпирических данных, — всё это отсутствует в данных предварительного обучения. Это выходит далеко за рамки задач с длинным контекстом, которые в основном проверяют поиск информации или понимание прочитанного, и задач обучения в контексте, где модели усваивают простые шаблоны задач с помощью инструкций и примеров. Наша оценка десяти передовых ЯМ показала, что модели в среднем решают лишь 17,2% задач. Даже лучшая модель, GPT-5.1, справляется только с 23,7%, что свидетельствует о том, что ЯМ ещё не достигли эффективного контекстного обучения, что создаёт серьёзное препятствие для решения реальных, сложных, контекстно-зависимых задач. CL-bench представляет собой шаг к созданию ЯМ с этой фундаментальной способностью, что сделает их более интеллектуальными и продвинет их применение в реальных сценариях.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.
PDF181February 6, 2026