CL4SE: Un Punto de Referencia para el Aprendizaje Contextual en Tareas de Ingeniería del Software

Resumen

La ingeniería de contexto ha surgido como un paradigma fundamental para desbloquear el potencial de los Modelos de Lenguaje a Gran Escala (LLM) en tareas de Ingeniería de Software (SE), permitiendo mejoras de rendimiento durante las pruebas sin necesidad de ajuste fino del modelo. A pesar de su éxito, la investigación existente carece de una taxonomía sistemática de tipos de contexto específicos para SE y de un benchmark dedicado para cuantificar los efectos heterogéneos de diferentes contextos en los flujos de trabajo centrales de SE. Para abordar esta brecha, proponemos CL4SE (Context Learning for Software Engineering), un benchmark integral que presenta una taxonomía detallada de cuatro tipos de contexto orientados a SE (ejemplos interpretables, contexto específico del proyecto, contexto de toma de decisiones procedural y contexto positivo y negativo), cada uno mapeado a una tarea representativa (generación de código, resumen de código, revisión de código y evaluación de corrección de parches). Construimos conjuntos de datos de alta calidad que comprenden más de 13,000 muestras de más de 30 proyectos de código abierto y evaluamos cinco LLM principales a través de nueve métricas. Experimentos exhaustivos demuestran que el aprendizaje por contexto produce una mejora promedio de rendimiento del 24.7% en todas las tareas. Específicamente, el contexto procedural aumenta el rendimiento en revisión de código hasta en un 33% (Qwen3-Max), el contexto mixto positivo-negativo mejora la evaluación de parches en un 30% (DeepSeek-V3), el contexto específico del proyecto incrementa el BLEU en resumen de código en un 14.78% (GPT-Oss-120B), y los ejemplos interpretables mejoran el PASS@1 en generación de código en un 5.72% (DeepSeek-V3). CL4SE establece el primer marco de evaluación estandarizado para el aprendizaje de contexto en SE, proporciona perspectivas empíricas prácticas para el diseño de contexto específico por tarea, y libera un conjunto de datos a gran escala para facilitar la investigación reproducible en este dominio.

English

Context engineering has emerged as a pivotal paradigm for unlocking the potential of Large Language Models (LLMs) in Software Engineering (SE) tasks, enabling performance gains at test time without model fine-tuning. Despite its success, existing research lacks a systematic taxonomy of SE-specific context types and a dedicated benchmark to quantify the heterogeneous effects of different contexts across core SE workflows. To address this gap, we propose CL4SE (Context Learning for Software Engineering), a comprehensive benchmark featuring a fine-grained taxonomy of four SE-oriented context types (interpretable examples, project-specific context, procedural decision-making context, and positive & negative context), each mapped to a representative task (code generation, code summarization, code review, and patch correctness assessment). We construct high-quality datasets comprising over 13,000 samples from more than 30 open-source projects and evaluate five mainstream LLMs across nine metrics. Extensive experiments demonstrate that context learning yields an average performance improvement of 24.7% across all tasks. Specifically, procedural context boosts code review performance by up to 33% (Qwen3-Max), mixed positive-negative context improves patch assessment by 30% (DeepSeek-V3), project-specific context increases code summarization BLEU by 14.78% (GPT-Oss-120B), and interpretable examples enhance code generation PASS@1 by 5.72% (DeepSeek-V3). CL4SE establishes the first standardized evaluation framework for SE context learning, provides actionable empirical insights into task-specific context design, and releases a large-scale dataset to facilitate reproducible research in this domain.

CL4SE: Un Punto de Referencia para el Aprendizaje Contextual en Tareas de Ingeniería del Software

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

Resumen

Support