ChatPaper.aiChatPaper

Mejorando la detección de deuda técnica en el código fuente de Java con un conjunto de datos enriquecido

Improving the detection of technical debt in Java source code with an enriched dataset

November 8, 2024
Autores: Nam Le Hai, Anh M. T. Bui, Phuong T. Nguyen, Davide Di Ruscio, Rick Kazman
cs.AI

Resumen

La deuda técnica (TD) es un término utilizado para describir el trabajo adicional y los costos que surgen cuando los desarrolladores optan por una solución rápida y sencilla a un problema, en lugar de un enfoque más efectivo y bien diseñado, pero que consume más tiempo. Las Deudas Técnicas Autoadmitidas (SATDs) son un tipo específico de deuda técnica que los desarrolladores documentan y reconocen intencionalmente, generalmente a través de comentarios textuales. Si bien estos comentarios autoadmitidos son una herramienta útil para identificar deudas técnicas, la mayoría de los enfoques existentes se centran en capturar tokens cruciales asociados con diversas categorías de TD, descuidando la rica información incrustada en el propio código fuente. Investigaciones recientes se han centrado en detectar SATDs mediante el análisis de comentarios incrustados en el código fuente, y ha habido poco trabajo relacionado con las deudas técnicas contenidas en el código fuente. Para cubrir esta brecha, en este estudio, a través del análisis de comentarios y su código fuente asociado de 974 proyectos Java alojados en el corpus Stack, creamos el primer conjunto de datos de TD identificado por comentarios de código, junto con su código fuente asociado. A través de una evaluación empírica, descubrimos que los comentarios del conjunto de datos resultante ayudan a mejorar el rendimiento de predicción de los modelos de detección de SATD de última generación. Más importante aún, incluir el código fuente clasificado mejora significativamente la precisión en la predicción de varios tipos de deuda técnica. En este sentido, nuestro trabajo es doble: (i) Creemos que nuestro conjunto de datos catalizará futuros trabajos en el dominio, inspirando diversas cuestiones de investigación relacionadas con el reconocimiento de la deuda técnica; (ii) Los clasificadores propuestos pueden servir como líneas de base para otros estudios sobre la detección de TD mediante el conjunto de datos curado.
English
Technical debt (TD) is a term used to describe the additional work and costs that emerge when developers have opted for a quick and easy solution to a problem, rather than a more effective and well-designed, but time-consuming approach. Self-Admitted Technical Debts (SATDs) are a specific type of technical debts that developers intentionally document and acknowledge, typically via textual comments. While these self-admitted comments are a useful tool for identifying technical debts, most of the existing approaches focus on capturing crucial tokens associated with various categories of TD, neglecting the rich information embedded within the source code itself. Recent research has focused on detecting SATDs by analyzing comments embedded in source code, and there has been little work dealing with technical debts contained in the source code. To fill such a gap, in this study, through the analysis of comments and their associated source code from 974 Java projects hosted in the Stack corpus, we curated the first ever dataset of TD identified by code comments, coupled with its associated source code. Through an empirical evaluation, we found out that the comments of the resulting dataset help enhance the prediction performance of state-of-the-art SATD detection models. More importantly, including the classified source code significantly improves the accuracy in predicting various types of technical debt. In this respect, our work is two-fold: (i) We believe that our dataset will catalyze future work in the domain, inspiring various research issues related to the recognition of technical debt; (ii) The proposed classifiers may serve as baselines for other studies on the detection of TD by means of the curated dataset.

Summary

AI-Generated Summary

PDF23November 14, 2024