UCoder: Generazione di Codice Non Supervisionata mediante Analisi Interna di Modelli Linguistici di Grande Dimensione

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nei compiti di generazione del codice. Tuttavia, la loro efficacia dipende fortemente dall'addestramento supervisionato con ampi dataset etichettati (ad esempio, coppie domanda-risposta) o non etichettati (ad esempio, frammenti di codice), che sono spesso costosi e difficili da ottenere su larga scala. Per affrontare questa limitazione, questo articolo introduce un metodo chiamato IPC, un framework non supervisionato che sfrutta il Internal Probing (analisi interna) degli LLM per la generazione di codice senza alcun corpus esterno, persino senza frammenti di codice non etichettati. Introduciamo il problem space probing, il test understanding probing, il solution space probing e la knowledge consolidation and reinforcement per analizzare la conoscenza interna e i modelli di confidenza esistenti negli LLM. Inoltre, IPC identifica candidati di codice affidabili attraverso meccanismi di auto-consistenza e stime della qualità basate sulla rappresentazione per addestrare UCoder (un generatore di codice con apprendimento non supervisionato). Convalidiamo l'approccio proposto su molteplici benchmark di codice, dimostrando che i metodi non supervisionati possono raggiungere prestazioni competitive rispetto agli approcci supervisionati, riducendo significativamente la dipendenza da dati etichettati e risorse computazionali. Esperimenti analitici rivelano che gli stati interni del modello contengono segnali ricchi riguardanti la qualità e la correttezza del codice, e che sfruttare adeguatamente questi segnali consente un apprendimento non supervisionato efficace per i compiti di generazione del codice, aprendo nuove direzioni per l'addestramento di LLM per il codice in scenari con risorse limitate.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, their effectiveness heavily relies on supervised training with extensive labeled (e.g., question-answering pairs) or unlabeled datasets (e.g., code snippets), which are often expensive and difficult to obtain at scale. To address this limitation, this paper introduces a method IPC, an unsupervised framework that leverages Internal Probing of LLMs for Code generation without any external corpus, even unlabeled code snippets. We introduce the problem space probing, test understanding probing, solution space probing, and knowledge consolidation and reinforcement to probe the internal knowledge and confidence patterns existing in LLMs. Further, IPC identifies reliable code candidates through self-consistency mechanisms and representation-based quality estimation to train UCoder (coder with unsupervised learning). We validate the proposed approach across multiple code benchmarks, demonstrating that unsupervised methods can achieve competitive performance compared to supervised approaches while significantly reducing the dependency on labeled data and computational resources. Analytic experiments reveal that internal model states contain rich signals about code quality and correctness, and that properly harnessing these signals enables effective unsupervised learning for code generation tasks, opening new directions for training code LLMs in resource-constrained scenarios.

UCoder: Generazione di Codice Non Supervisionata mediante Analisi Interna di Modelli Linguistici di Grande Dimensione

UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Abstract

Support