CL4SE: 소프트웨어 엔지니어링 작업을 위한 컨텍스트 학습 벤치마크
CL4SE: A Context Learning Benchmark For Software Engineering Tasks
February 26, 2026
저자: Haichuan Hu, Ye Shang, Guoqing Xie, Congqing He, Quanjun Zhang
cs.AI
초록
컨텍스트 엔지니어링은 소프트웨어 공학(SE) 작업에서 대규모 언어 모델(LLM)의 잠재력을 끌어내기 위한 핵심 패러다임으로 부상하였으며, 모델 미세 조정 없이 테스트 시점에서 성능 향상을 가능하게 합니다. 그러나 이러한 성공에도 불구하고, 기존 연구에는 SE에 특화된 컨텍스트 유형에 대한 체계적인 분류 체계와 핵심 SE 워크플로우 전반에 걸쳐 다양한 컨텍스트의 이질적 효과를 정량화하기 위한 전용 벤치마크가 부족했습니다. 이러한 격차를 해결하기 위해 우리는 CL4SE(소프트웨어 공학을 위한 컨텍스트 학습)를 제안합니다. CL4SE는 네 가지 SE 지향적 컨텍스트 유형(해석 가능한 예제, 프로젝트 특정 컨텍스트, 절차적 의사 결정 컨텍스트, 긍정 및 부정 컨텍스트)에 대한 세분화된 분류 체계를 특징으로 하는 포괄적인 벤치마크로, 각 유형은 대표적인 작업(코드 생성, 코드 요약, 코드 리뷰, 패치 정확성 평가)에 매핑됩니다. 우리는 30개 이상의 오픈소스 프로젝트로부터 13,000개 이상의 샘플로 구성된 고품질 데이터셋을 구축하고 9가지 메트릭을 통해 5가지 주류 LLM을 평가했습니다. 광범위한 실험 결과, 컨텍스트 학습이 모든 작업에서 평균 24.7%의 성능 향상을 가져옴을 입증했습니다. 구체적으로, 절차적 컨텍스트는 코드 리뷰 성능을 최대 33%(Qwen3-Max)까지 향상시켰고, 혼합 긍정-부정 컨텍스트는 패치 평가 성능을 30%(DeepSeek-V3) 개선시켰으며, 프로젝트 특정 컨텍스트는 코드 요약 BLEU 점수를 14.78%(GPT-Oss-120B) 높였고, 해석 가능한 예제는 코드 생성 PASS@1을 5.72%(DeepSeek-V3) 향상시켰습니다. CL4SE는 SE 컨텍스트 학습을 위한 최초의 표준화된 평가 프레임워크를确立하며, 작업별 컨텍스트 설계에 대한 실질적인 실증적 통찰을 제공하고, 이 분야의 재현 가능한 연구를 촉진하기 위해 대규모 데이터셋을 공개합니다.
English
Context engineering has emerged as a pivotal paradigm for unlocking the potential of Large Language Models (LLMs) in Software Engineering (SE) tasks, enabling performance gains at test time without model fine-tuning. Despite its success, existing research lacks a systematic taxonomy of SE-specific context types and a dedicated benchmark to quantify the heterogeneous effects of different contexts across core SE workflows. To address this gap, we propose CL4SE (Context Learning for Software Engineering), a comprehensive benchmark featuring a fine-grained taxonomy of four SE-oriented context types (interpretable examples, project-specific context, procedural decision-making context, and positive & negative context), each mapped to a representative task (code generation, code summarization, code review, and patch correctness assessment). We construct high-quality datasets comprising over 13,000 samples from more than 30 open-source projects and evaluate five mainstream LLMs across nine metrics. Extensive experiments demonstrate that context learning yields an average performance improvement of 24.7% across all tasks. Specifically, procedural context boosts code review performance by up to 33% (Qwen3-Max), mixed positive-negative context improves patch assessment by 30% (DeepSeek-V3), project-specific context increases code summarization BLEU by 14.78% (GPT-Oss-120B), and interpretable examples enhance code generation PASS@1 by 5.72% (DeepSeek-V3). CL4SE establishes the first standardized evaluation framework for SE context learning, provides actionable empirical insights into task-specific context design, and releases a large-scale dataset to facilitate reproducible research in this domain.