Guidare i Modelli Linguistici per il Codice con Contesto Globale utilizzando Monitori

Abstract

I modelli linguistici di codice (LMs) funzionano bene quando il codice circostante in prossimità della generazione fornisce un contesto sufficiente. Questo non è vero quando diventa necessario utilizzare tipi o funzionalità definiti in un altro modulo o libreria, specialmente quelli non visti durante l'addestramento. Gli LMs soffrono di una consapevolezza limitata di tale contesto globale e finiscono per allucinare, ad esempio, utilizzando in modo errato tipi definiti in altri file. Recenti lavori cercano di superare questo problema recuperando informazioni globali per arricchire il contesto locale. Tuttavia, questo gonfia il prompt o richiede modifiche all'architettura e ulteriore addestramento. Gli ambienti di sviluppo integrati (IDEs) assistono gli sviluppatori portando il contesto globale a portata di mano utilizzando l'analisi statica. Estendiamo questa assistenza, di cui godono gli sviluppatori, anche agli LMs. Proponiamo una nozione di monitor che utilizzano l'analisi statica in background per guidare la decodifica. A differenza del recupero a priori, l'analisi statica viene invocata iterativamente durante l'intero processo di decodifica, fornendo i suggerimenti più rilevanti su richiesta. Dimostriamo l'utilità della nostra proposta monitorando l'uso coerente dei tipi degli identificatori ogni volta che un LM genera codice per la dereferenziazione di oggetti. Per valutare il nostro approccio, abbiamo curato PragmaticCode, un dataset di progetti open-source con i loro ambienti di sviluppo. Su modelli di varia scala di parametri, mostriamo che la decodifica guidata dal monitor migliora costantemente la capacità di un LM non solo di generare identificatori che corrispondono alla verità di base, ma anche di migliorare i tassi di compilazione e la concordanza con la verità di base. Troviamo che LMs con meno parametri, quando guidati dal nostro monitor, possono superare LMs più grandi. Con la decodifica guidata dal monitor, SantaCoder-1.1B raggiunge un tasso di compilazione migliore e una corrispondenza del prossimo identificatore rispetto al modello molto più grande text-davinci-003. I dataset e il codice saranno rilasciati su https://aka.ms/monitors4codegen.

English

Language models of code (LMs) work well when the surrounding code in the vicinity of generation provides sufficient context. This is not true when it becomes necessary to use types or functionality defined in another module or library, especially those not seen during training. LMs suffer from limited awareness of such global context and end up hallucinating, e.g., using types defined in other files incorrectly. Recent work tries to overcome this issue by retrieving global information to augment the local context. However, this bloats the prompt or requires architecture modifications and additional training. Integrated development environments (IDEs) assist developers by bringing the global context at their fingertips using static analysis. We extend this assistance, enjoyed by developers, to the LMs. We propose a notion of monitors that use static analysis in the background to guide the decoding. Unlike a priori retrieval, static analysis is invoked iteratively during the entire decoding process, providing the most relevant suggestions on demand. We demonstrate the usefulness of our proposal by monitoring for type-consistent use of identifiers whenever an LM generates code for object dereference. To evaluate our approach, we curate PragmaticCode, a dataset of open-source projects with their development environments. On models of varying parameter scale, we show that monitor-guided decoding consistently improves the ability of an LM to not only generate identifiers that match the ground truth but also improves compilation rates and agreement with ground truth. We find that LMs with fewer parameters, when guided with our monitor, can outperform larger LMs. With monitor-guided decoding, SantaCoder-1.1B achieves better compilation rate and next-identifier match than the much larger text-davinci-003 model. The datasets and code will be released at https://aka.ms/monitors4codegen .

Guidare i Modelli Linguistici per il Codice con Contesto Globale utilizzando Monitori

Guiding Language Models of Code with Global Context using Monitors

Abstract

Support