UCoder: Geração de Código Não Supervisionada por Sondagem Interna de Modelos de Linguagem de Grande Escala

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram capacidades notáveis em tarefas de geração de código. No entanto, a sua eficácia depende fortemente do treino supervisionado com conjuntos de dados extensos, rotulados (por exemplo, pares de pergunta-resposta) ou não rotulados (por exemplo, fragmentos de código), que são frequentemente dispendiosos e difíceis de obter em escala. Para superar esta limitação, este artigo introduz um método denominado IPC, uma estrutura não supervisionada que aproveita o *Internal Probing* (Sondagem Interna) de LLMs para geração de código, sem qualquer corpus externo, incluindo até fragmentos de código não rotulados. Introduzimos a sondagem do espaço do problema, a sondagem da compreensão do teste, a sondagem do espaço de solução e a consolidação e reforço do conhecimento para sondar os padrões de conhecimento interno e de confiança existentes nos LLMs. Adicionalmente, o IPC identifica candidatos a código fiáveis através de mecanismos de auto-consistência e de estimativa de qualidade baseada em representações para treinar o UCoder (*coder* com aprendizagem não supervisionada). Validamos a abordagem proposta em vários *benchmarks* de código, demonstrando que os métodos não supervisionados podem alcançar um desempenho competitivo em comparação com abordagens supervisionadas, reduzindo significativamente a dependência de dados rotulados e de recursos computacionais. Experiências analíticas revelam que os estados internos do modelo contêm sinais ricos sobre a qualidade e correção do código, e que aproveitar adequadamente estes sinais permite uma aprendizagem não supervisionada eficaz para tarefas de geração de código, abrindo novas direções para o treino de LLMs de código em cenários com recursos limitados.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, their effectiveness heavily relies on supervised training with extensive labeled (e.g., question-answering pairs) or unlabeled datasets (e.g., code snippets), which are often expensive and difficult to obtain at scale. To address this limitation, this paper introduces a method IPC, an unsupervised framework that leverages Internal Probing of LLMs for Code generation without any external corpus, even unlabeled code snippets. We introduce the problem space probing, test understanding probing, solution space probing, and knowledge consolidation and reinforcement to probe the internal knowledge and confidence patterns existing in LLMs. Further, IPC identifies reliable code candidates through self-consistency mechanisms and representation-based quality estimation to train UCoder (coder with unsupervised learning). We validate the proposed approach across multiple code benchmarks, demonstrating that unsupervised methods can achieve competitive performance compared to supervised approaches while significantly reducing the dependency on labeled data and computational resources. Analytic experiments reveal that internal model states contain rich signals about code quality and correctness, and that properly harnessing these signals enables effective unsupervised learning for code generation tasks, opening new directions for training code LLMs in resource-constrained scenarios.

UCoder: Geração de Código Não Supervisionada por Sondagem Interna de Modelos de Linguagem de Grande Escala

UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Resumo

Support