CL4SE: Um Benchmark de Aprendizado Contextual para Tarefas de Engenharia de Software

Resumo

A engenharia de contexto emergiu como um paradigma fundamental para desbloquear o potencial dos Modelos de Linguagem de Grande Escala (LLMs) em tarefas de Engenharia de Software (ES), permitindo ganhos de desempenho durante o teste sem a necessidade de ajuste fino do modelo. Apesar do seu sucesso, a pesquisa existente carece de uma taxonomia sistemática de tipos de contexto específicos para ES e de um benchmark dedicado para quantificar os efeitos heterogéneos de diferentes contextos nos fluxos de trabalho centrais de ES. Para colmatar esta lacuna, propomos o CL4SE (Context Learning for Software Engineering), um benchmark abrangente que apresenta uma taxonomia detalhada de quatro tipos de contexto orientados para ES (exemplos interpretáveis, contexto específico do projeto, contexto de tomada de decisão processual e contexto positivo e negativo), cada um mapeado para uma tarefa representativa (geração de código, sumarização de código, revisão de código e avaliação de correção de patches). Construímos conjuntos de dados de alta qualidade compreendendo mais de 13.000 amostras de mais de 30 projetos de código aberto e avaliamos cinco LLMs principais através de nove métricas. Experiências extensivas demonstram que a aprendizagem por contexto produz uma melhoria média de desempenho de 24,7% em todas as tarefas. Especificamente, o contexto processual aumenta o desempenho da revisão de código em até 33% (Qwen3-Max), o contexto misto positivo-negativo melhora a avaliação de patches em 30% (DeepSeek-V3), o contexto específico do projeto aumenta o BLEU da sumarização de código em 14,78% (GPT-Oss-120B), e os exemplos interpretáveis melhoram o PASS@1 da geração de código em 5,72% (DeepSeek-V3). O CL4SE estabelece o primeiro quadro de avaliação padronizado para a aprendizagem por contexto em ES, fornece informações empíricas acionáveis para o desenho de contexto específico por tarefa e disponibiliza um conjunto de dados em larga escala para facilitar a pesquisa reproduzível neste domínio.

English

Context engineering has emerged as a pivotal paradigm for unlocking the potential of Large Language Models (LLMs) in Software Engineering (SE) tasks, enabling performance gains at test time without model fine-tuning. Despite its success, existing research lacks a systematic taxonomy of SE-specific context types and a dedicated benchmark to quantify the heterogeneous effects of different contexts across core SE workflows. To address this gap, we propose CL4SE (Context Learning for Software Engineering), a comprehensive benchmark featuring a fine-grained taxonomy of four SE-oriented context types (interpretable examples, project-specific context, procedural decision-making context, and positive & negative context), each mapped to a representative task (code generation, code summarization, code review, and patch correctness assessment). We construct high-quality datasets comprising over 13,000 samples from more than 30 open-source projects and evaluate five mainstream LLMs across nine metrics. Extensive experiments demonstrate that context learning yields an average performance improvement of 24.7% across all tasks. Specifically, procedural context boosts code review performance by up to 33% (Qwen3-Max), mixed positive-negative context improves patch assessment by 30% (DeepSeek-V3), project-specific context increases code summarization BLEU by 14.78% (GPT-Oss-120B), and interpretable examples enhance code generation PASS@1 by 5.72% (DeepSeek-V3). CL4SE establishes the first standardized evaluation framework for SE context learning, provides actionable empirical insights into task-specific context design, and releases a large-scale dataset to facilitate reproducible research in this domain.

CL4SE: Um Benchmark de Aprendizado Contextual para Tarefas de Engenharia de Software

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

Resumo

Support