CODESYNC: Sincronizzazione di Modelli Linguistici di Grande Scala con l'Evoluzione Dinamica del Codice

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni eccezionali nell'ingegneria del software, ma affrontano sfide nell'adattarsi alla continua evoluzione delle conoscenze sul codice, in particolare riguardo ai frequenti aggiornamenti delle API delle librerie di terze parti. Questa limitazione, derivante da dataset di pre-addestramento statici, spesso si traduce in codice non eseguibile o implementazioni con sicurezza ed efficienza subottimali. A tal fine, questo articolo introduce CODESYNC, un motore di dati per identificare modelli di codice obsoleti e raccogliere aggiornamenti in tempo reale delle conoscenze sul codice dalle librerie di terze parti di Python. Basandoci su CODESYNC, sviluppiamo CODESYNCBENCH, un benchmark completo per valutare la capacità degli LLM di rimanere sincronizzati con l'evoluzione del codice, che copre aggiornamenti reali per 220 API di sei librerie Python. Il nostro benchmark offre 3.300 casi di test attraverso tre compiti di valutazione e un dataset di istruzioni sintonizzate sugli aggiornamenti composto da 2.200 campioni di addestramento. Esperimenti estesi su 14 LLM all'avanguardia rivelano che questi faticano a gestire l'evoluzione dinamica del codice, anche con il supporto di metodi avanzati di aggiornamento delle conoscenze (ad esempio, DPO, ORPO e SimPO). Crediamo che il nostro benchmark possa offrire una solida base per lo sviluppo di metodi più efficaci per l'aggiornamento in tempo reale delle conoscenze sul codice in futuro. Il codice sperimentale e il dataset sono disponibili pubblicamente all'indirizzo: https://github.com/Lucky-voyage/Code-Sync.

English

Large Language Models (LLMs) have exhibited exceptional performance in software engineering yet face challenges in adapting to continually evolving code knowledge, particularly regarding the frequent updates of third-party library APIs. This limitation, stemming from static pre-training datasets, often results in non-executable code or implementations with suboptimal safety and efficiency. To this end, this paper introduces CODESYNC, a data engine for identifying outdated code patterns and collecting real-time code knowledge updates from Python third-party libraries. Building upon CODESYNC, we develop CODESYNCBENCH, a comprehensive benchmark for assessing LLMs' ability to stay synchronized with code evolution, which covers real-world updates for 220 APIs from six Python libraries. Our benchmark offers 3,300 test cases across three evaluation tasks and an update-aware instruction tuning dataset consisting of 2,200 training samples. Extensive experiments on 14 state-of-the-art LLMs reveal that they struggle with dynamic code evolution, even with the support of advanced knowledge updating methods (e.g., DPO, ORPO, and SimPO). We believe that our benchmark can offer a strong foundation for the development of more effective methods for real-time code knowledge updating in the future. The experimental code and dataset are publicly available at: https://github.com/Lucky-voyage/Code-Sync.

CODESYNC: Sincronizzazione di Modelli Linguistici di Grande Scala con l'Evoluzione Dinamica del Codice

CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

Abstract

Support