CL-bench: 맥락 학습을 위한 벤치마크
CL-bench: A Benchmark for Context Learning
February 3, 2026
저자: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI
초록
현재 언어 모델(LM)은 사전 학습된 지식을 활용한 프롬프트 추론에서 뛰어난 성능을 보입니다. 그러나 현실 세계의 과업은 훨씬 더 복잡하고 문맥 의존적입니다: 모델은 과업 특정 문맥으로부터 학습하고, 사전 학습 과정에서 습득한 범위를 넘어선 새로운 지식을 활용하여 과업을 추론하고 해결해야 합니다. 우리는 이러한 능력을 '문맥 학습'이라고 명명하며, 이는 인간이 당연히 가지고 있지만 지금껏 크게 간과되어 온 핵심 능력입니다. 이를 위해 우리는 경험 많은 도메인 전문가들이 정성들여 구성한 500개의 복잡한 문맥, 1,899개의 과업, 31,607개의 검증 기준으로 이루어진 현실 세계 벤치마크인 CL-bench를 소개합니다. 각 과업은 이를 해결하는 데 필요한 새로운 내용이 해당 문맥 내에 포함되도록 설계되었습니다. CL-bench의 과업 해결에는 모델이 사전 학습에서는 접할 수 없는, 새로운 도메인 특화 지식, 규칙 체계, 복잡한 절차, 경험적 데이터에서 도출된 법칙 등에 이르기까지 문맥으로부터 학습하는 것이 요구됩니다. 이는 주로 정보 검색이나 독해력을 테스트하는 장문맥 과업이나, 모델이 지시문과 예시를 통해 단순한 과업 패턴을 학습하는 인컨텍스트 러닝 과업을 훨씬 넘어서는 것입니다. 10개의 최첨단 LM을 평가한 결과, 모델들은 평균적으로 과업의 17.2%만 해결했습니다. 가장 성능이 뛰어난 모델인 GPT-5.1조차 23.7%만 해결하여, LM이 효과적인 문맥 학습을 아직 달성하지 못했음을 보여주며, 이는 현실 세계의 복잡한 문맥 의존적 과업을 해결하는 데 있어 심각한 병목 현상으로 작용하고 있습니다. CL-bench는 이러한 근본적인 능력을 갖춘 LM을 구축하여 보다 지능적으로 만들고 현실 세계 시나리오에서의 활용을 앞당기기 위한 한 걸음입니다.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.