Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren

Zusammenfassung

Sprachmodelle für Code (LMs) funktionieren gut, wenn der umgebende Code in der Nähe der Generierung ausreichend Kontext bietet. Dies trifft jedoch nicht zu, wenn es notwendig wird, Typen oder Funktionalitäten zu verwenden, die in einem anderen Modul oder einer Bibliothek definiert sind, insbesondere solchen, die während des Trainings nicht gesehen wurden. LMs leiden unter einem begrenzten Bewusstsein für solchen globalen Kontext und neigen dazu, Halluzinationen zu erzeugen, z. B. indem sie Typen, die in anderen Dateien definiert sind, falsch verwenden. Aktuelle Arbeiten versuchen, dieses Problem zu überwinden, indem sie globale Informationen abrufen, um den lokalen Kontext zu erweitern. Dies führt jedoch zu einer Aufblähung des Prompts oder erfordert Architekturänderungen und zusätzliches Training. Integrierte Entwicklungsumgebungen (IDEs) unterstützen Entwickler, indem sie den globalen Kontext mithilfe von statischer Analyse leicht zugänglich machen. Wir erweitern diese Unterstützung, die Entwickler genießen, auf die LMs. Wir schlagen das Konzept von Monitoren vor, die im Hintergrund statische Analyse verwenden, um die Dekodierung zu steuern. Im Gegensatz zu einem a-priori-Abruf wird die statische Analyse während des gesamten Dekodierungsprozesses iterativ aufgerufen und liefert die relevantesten Vorschläge bedarfsgerecht. Wir demonstrieren den Nutzen unseres Vorschlags, indem wir die typkonsistente Verwendung von Identifikatoren überwachen, sobald ein LM Code für die Objektdereferenzierung generiert. Um unseren Ansatz zu evaluieren, haben wir PragmaticCode kuratiert, einen Datensatz von Open-Source-Projekten mit ihren Entwicklungsumgebungen. An Modellen mit unterschiedlichem Parameterumfang zeigen wir, dass die monitor-gesteuerte Dekodierung die Fähigkeit eines LMs, nicht nur Identifikatoren zu generieren, die mit der Grundwahrheit übereinstimmen, sondern auch die Kompilierungsraten und die Übereinstimmung mit der Grundwahrheit, kontinuierlich verbessert. Wir stellen fest, dass LMs mit weniger Parametern, wenn sie mit unserem Monitor gesteuert werden, größere LMs übertreffen können. Mit monitor-gesteuerter Dekodierung erreicht SantaCoder-1.1B eine bessere Kompilierungsrate und Übereinstimmung des nächsten Identifikators als das viel größere text-davinci-003-Modell. Die Datensätze und der Code werden unter https://aka.ms/monitors4codegen veröffentlicht.

English

Language models of code (LMs) work well when the surrounding code in the vicinity of generation provides sufficient context. This is not true when it becomes necessary to use types or functionality defined in another module or library, especially those not seen during training. LMs suffer from limited awareness of such global context and end up hallucinating, e.g., using types defined in other files incorrectly. Recent work tries to overcome this issue by retrieving global information to augment the local context. However, this bloats the prompt or requires architecture modifications and additional training. Integrated development environments (IDEs) assist developers by bringing the global context at their fingertips using static analysis. We extend this assistance, enjoyed by developers, to the LMs. We propose a notion of monitors that use static analysis in the background to guide the decoding. Unlike a priori retrieval, static analysis is invoked iteratively during the entire decoding process, providing the most relevant suggestions on demand. We demonstrate the usefulness of our proposal by monitoring for type-consistent use of identifiers whenever an LM generates code for object dereference. To evaluate our approach, we curate PragmaticCode, a dataset of open-source projects with their development environments. On models of varying parameter scale, we show that monitor-guided decoding consistently improves the ability of an LM to not only generate identifiers that match the ground truth but also improves compilation rates and agreement with ground truth. We find that LMs with fewer parameters, when guided with our monitor, can outperform larger LMs. With monitor-guided decoding, SantaCoder-1.1B achieves better compilation rate and next-identifier match than the much larger text-davinci-003 model. The datasets and code will be released at https://aka.ms/monitors4codegen .

Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren

Guiding Language Models of Code with Global Context using Monitors

Zusammenfassung

Support