ChatPaper.aiChatPaper

CL-bench: 文脈学習のためのベンチマーク

CL-bench: A Benchmark for Context Learning

February 3, 2026
著者: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI

要旨

現在の言語モデル(LM)は、事前学習で獲得した知識を用いたプロンプトへの推論において優れた性能を発揮する。しかし、現実世界のタスクははるかに複雑で文脈依存性が高い。すなわち、モデルはタスク固有の文脈から学習し、事前学習では習得していない新たな知識を活用して推論を行い、課題を解決する必要がある。我々はこの能力を「文脈学習」と定義する。これは人間が自然に備えている重要な能力であるが、これまでほとんど着目されてこなかった。この課題に取り組むため、我々はCL-benchを提案する。これは実世界を反映したベンチマークであり、経験豊富なドメイン専門家によって作成された500の複雑な文脈、1,899のタスク、31,607の評価基準で構成されている。各タスクは、それを解決するために必要な新規情報が対応する文脈内に含まれるように設計されている。CL-benchのタスクを解決するには、モデルは文脈から学習する必要があり、その範囲は、新しいドメイン固有の知識、ルール体系、複雑な手順から、実測データに基づいて導出された法則まで多岐にわたり、これらはいずれも事前学習では扱われていない。これは主に検索や読解力を試す長文脈タスクや、モデルが指示やデモンストレーションを通じて単純なタスクパターンを学習するインコンテキスト学習タスクをはるかに超える要求水準である。10種類の先進的なLMを評価した結果、モデルが平均して解決できたタスクは17.2%に過ぎなかった。最高性能のモデルであるGPT-5.1でさえ、解決率は23.7%であり、LMが効果的な文脈学習を達成できておらず、これが実世界の複雑な文脈依存タスクに取り組む上での重大なボトルネックとなっていることが明らかになった。CL-benchは、この根源的な能力を備えたLMを構築し、より知性的にするとともに、実世界での展開を推進するための一歩である。
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.
PDF181February 6, 2026