ChatPaper.aiChatPaper

CL4SE: Een Benchmark voor Contextleren bij Software Engineering-taken

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

February 26, 2026
Auteurs: Haichuan Hu, Ye Shang, Guoqing Xie, Congqing He, Quanjun Zhang
cs.AI

Samenvatting

Context engineering is uitgegroeid tot een cruciaal paradigma om het potentieel van Large Language Models (LLM's) te ontsluiten bij Software Engineering (SE)-taken, waarbij prestatieverbeteringen worden gerealiseerd tijdens het testen zonder fine-tuning van het model. Ondanks dit succes ontbreekt het in bestaand onderzoek aan een systematische taxonomie van SE-specifieke contexttypen en een toegewijd benchmark om de heterogene effecten van verschillende contexten in kern-SE-workflows te kwantificeren. Om deze leemte op te vullen, stellen wij CL4SE (Context Learning for Software Engineering) voor, een uitgebreide benchmark met een fijnmazige taxonomie van vier SE-gerichte contexttypen (interpreteerbare voorbeelden, project-specifieke context, procedurele besluitvormingscontext, en positieve & negatieve context), elk gekoppeld aan een representatieve taak (codegeneratie, codesamenvatting, codereview en beoordeling van patchcorrectheid). Wij construeren hoogwaardige datasets met meer dan 13.000 samples uit meer dan 30 open-sourceprojecten en evalueren vijf gangbare LLM's aan de hand van negen metrieken. Uitgebreide experimenten tonen aan dat context learning een gemiddelde prestatieverbetering van 24,7% oplevert over alle taken. Specifiek verhoogt procedurele context de prestaties bij codereview met tot 33% (Qwen3-Max), gemengde positief-negatieve context verbetert patchbeoordeling met 30% (DeepSeek-V3), project-specifieke context verhoogt de BLEU-score voor codesamenvatting met 14,78% (GPT-Oss-120B), en interpreteerbare voorbeelden verbeteren PASS@1 voor codegeneratie met 5,72% (DeepSeek-V3). CL4SE vestigt het eerste gestandaardiseerde evaluatieraamwerk voor SE-context learning, biedt praktische empirische inzichten in taakspecifiek contextontwerp, en stelt een grootschalige dataset vrij om reproduceerbaar onderzoek op dit gebied te faciliteren.
English
Context engineering has emerged as a pivotal paradigm for unlocking the potential of Large Language Models (LLMs) in Software Engineering (SE) tasks, enabling performance gains at test time without model fine-tuning. Despite its success, existing research lacks a systematic taxonomy of SE-specific context types and a dedicated benchmark to quantify the heterogeneous effects of different contexts across core SE workflows. To address this gap, we propose CL4SE (Context Learning for Software Engineering), a comprehensive benchmark featuring a fine-grained taxonomy of four SE-oriented context types (interpretable examples, project-specific context, procedural decision-making context, and positive & negative context), each mapped to a representative task (code generation, code summarization, code review, and patch correctness assessment). We construct high-quality datasets comprising over 13,000 samples from more than 30 open-source projects and evaluate five mainstream LLMs across nine metrics. Extensive experiments demonstrate that context learning yields an average performance improvement of 24.7% across all tasks. Specifically, procedural context boosts code review performance by up to 33% (Qwen3-Max), mixed positive-negative context improves patch assessment by 30% (DeepSeek-V3), project-specific context increases code summarization BLEU by 14.78% (GPT-Oss-120B), and interpretable examples enhance code generation PASS@1 by 5.72% (DeepSeek-V3). CL4SE establishes the first standardized evaluation framework for SE context learning, provides actionable empirical insights into task-specific context design, and releases a large-scale dataset to facilitate reproducible research in this domain.
PDF22March 7, 2026