ChatPaper.aiChatPaper

CL-bench: Un Punto de Referencia para el Aprendizaje Contextual

CL-bench: A Benchmark for Context Learning

February 3, 2026
Autores: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao
cs.AI

Resumen

Los modelos lingüísticos (LM) actuales sobresalen en el razonamiento sobre instrucciones utilizando conocimiento preentrenado. Sin embargo, las tareas del mundo real son mucho más complejas y dependientes del contexto: los modelos deben aprender del contexto específico de la tarea y aprovechar conocimientos nuevos más allá de lo aprendido durante el preentrenamiento para razonar y resolver tareas. Denominamos a esta capacidad **aprendizaje contextual**, una habilidad crucial que los humanos poseen de forma natural pero que ha sido ampliamente pasada por alto. Con este fin, presentamos CL-bench, un benchmark del mundo real que consta de 500 contextos complejos, 1.899 tareas y 31.607 rúbricas de verificación, todos elaborados por expertos en dominio con experiencia. Cada tarea está diseñada de modo que el nuevo contenido necesario para resolverla está contenido dentro del contexto correspondiente. Resolver las tareas en CL-bench requiere que los modelos aprendan del contexto, desde nuevos conocimientos específicos del dominio, sistemas de reglas y procedimientos complejos hasta leyes derivadas de datos empíricos, todos ellos ausentes en el preentrenamiento. Esto va mucho más allá de las tareas de contexto largo, que principalmente prueban la recuperación o la comprensión lectora, y de las tareas de aprendizaje en contexto, donde los modelos aprenden patrones de tarea simples mediante instrucciones y demostraciones. Nuestras evaluaciones de diez LM de vanguardia encuentran que los modelos resuelven solo el 17,2% de las tareas en promedio. Incluso el modelo con mejor rendimiento, GPT-5.1, resuelve solo el 23,7%, lo que revela que los LM aún no han logrado un aprendizaje contextual efectivo, lo que supone un cuello de botella crítico para abordar tareas del mundo real complejas y dependientes del contexto. CL-bench representa un paso hacia la construcción de LM con esta capacidad fundamental, haciéndolos más inteligentes y avanzando en su despliegue en escenarios del mundo real.
English
Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.
PDF181February 6, 2026