CL-bench: Un Benchmark per l'Apprendimento Contestuale

Abstract

I modelli linguistici (LM) attuali eccellono nel ragionamento su prompt utilizzando conoscenze pre-addestrate. Tuttavia, i compiti del mondo reale sono molto più complessi e dipendenti dal contesto: i modelli devono apprendere dal contesto specifico del compito e sfruttare nuove conoscenze oltre quanto appreso durante il pre-addestramento per ragionare e risolvere i compiti. Definiamo questa capacità *apprendimento contestuale* (context learning), un'abilità cruciale che gli esseri umani possiedono naturalmente ma che è stata largamente trascurata. A tal fine, presentiamo CL-bench, un benchmark del mondo reale composto da 500 contesti complessi, 1.899 compiti e 31.607 griglie di verifica, tutti creati da esperti di dominio esperti. Ogni compito è progettato in modo che il nuovo contenuto necessario per risolverlo sia contenuto nel corrispondente contesto. La risoluzione dei compiti in CL-bench richiede ai modelli di apprendere dal contesto, spaziando da nuove conoscenze dominio-specifiche, sistemi di regole e procedure complesse a leggi derivate da dati empirici, tutti assenti nel pre-addestramento. Questo va ben oltre i compiti a contesto lungo che testano principalmente il recupero o la comprensione del testo, e i compiti di apprendimento in-context, dove i modelli apprendono semplici pattern di compito tramite istruzioni e dimostrazioni. Le nostre valutazioni su dieci LM all'avanguardia rilevano che i modelli risolvono in media solo il 17,2% dei compiti. Anche il modello con le migliori prestazioni, GPT-5.1, risolve solo il 23,7%, rivelando che i LM devono ancora raggiungere un apprendimento contestuale efficace, il che rappresenta un collo di bottiglia critico per affrontare compiti reali, complessi e dipendenti dal contesto. CL-bench rappresenta un passo verso la costruzione di LM con questa capacità fondamentale, rendendoli più intelligenti e favorendo il loro dispiegamento in scenari del mondo reale.

English

Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.

CL-bench: Un Benchmark per l'Apprendimento Contestuale

CL-bench: A Benchmark for Context Learning

Abstract

Support