오픈 데이터와 산업 데이터에 대한 트랜스포머 기반 취약점 탐지의 크로스 도메인 평가
Cross-Domain Evaluation of Transformer-Based Vulnerability Detection on Open & Industry Data
September 11, 2025
저자: Moritz Mock, Thomas Forrer, Barbara Russo
cs.AI
초록
학계에서 제안된 취약점 탐지를 위한 딥러닝 솔루션은 개발자들이 항상 접근할 수 있는 것은 아니며, 산업 현장에서의 적용 가능성은 거의 다루어지지 않습니다. 이러한 기술을 학계에서 산업계로 이전하는 과정에서는 신뢰성, 레거시 시스템, 제한된 디지털 리터러시, 그리고 학계와 산업계 간의 전문성 차이와 관련된 도전 과제들이 존재합니다. 특히 딥러닝의 경우, 성능과 기존 워크플로우에의 통합이 추가적인 고려 사항입니다. 본 연구에서는 먼저 산업용 및 오픈소스 소프트웨어에서 취약한 함수를 탐지하기 위한 CodeBERT의 성능을 평가합니다. 우리는 오픈소스 데이터로 미세 조정된 모델을 산업용 데이터로 테스트하고, 그 반대의 경우도 분석하며, 클래스 불균형을 처리하기 위한 전략도 탐구합니다. 이러한 결과를 바탕으로, 우리는 AI-DO(Automating vulnerability detection Integration for Developers' Operations)를 개발했습니다. 이는 CI/CD(지속적 통합-지속적 배포)와 통합된 추천 시스템으로, 미세 조정된 CodeBERT를 사용하여 코드 리뷰 중에 워크플로우를 방해하지 않으면서 취약점을 탐지하고 위치를 파악합니다. 마지막으로, 우리는 회사의 IT 전문가들을 대상으로 한 설문을 통해 이 도구의 인지된 유용성을 평가합니다. 우리의 결과는 산업용 데이터로 훈련된 모델이 동일한 도메인 내에서 취약점을 정확하게 탐지하지만, 오픈소스 코드에서는 성능이 저하되는 반면, 적절한 언더샘플링 기법을 사용하여 오픈 데이터로 미세 조정된 딥러닝 모델이 취약점 탐지를 개선함을 보여줍니다.
English
Deep learning solutions for vulnerability detection proposed in academic
research are not always accessible to developers, and their applicability in
industrial settings is rarely addressed. Transferring such technologies from
academia to industry presents challenges related to trustworthiness, legacy
systems, limited digital literacy, and the gap between academic and industrial
expertise. For deep learning in particular, performance and integration into
existing workflows are additional concerns. In this work, we first evaluate the
performance of CodeBERT for detecting vulnerable functions in industrial and
open-source software. We analyse its cross-domain generalisation when
fine-tuned on open-source data and tested on industrial data, and vice versa,
also exploring strategies for handling class imbalance. Based on these results,
we develop AI-DO(Automating vulnerability detection Integration for Developers'
Operations), a Continuous Integration-Continuous Deployment (CI/CD)-integrated
recommender system that uses fine-tuned CodeBERT to detect and localise
vulnerabilities during code review without disrupting workflows. Finally, we
assess the tool's perceived usefulness through a survey with the company's IT
professionals. Our results show that models trained on industrial data detect
vulnerabilities accurately within the same domain but lose performance on
open-source code, while a deep learner fine-tuned on open data, with
appropriate undersampling techniques, improves the detection of
vulnerabilities.