UCoder: Generación de Código No Supervisada mediante Sondeo Interno de Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje grandes (LLM) han demostrado capacidades notables en tareas de generación de código. Sin embargo, su efectividad depende en gran medida del entrenamiento supervisado con conjuntos de datos extensos etiquetados (por ejemplo, pares de pregunta-respuesta) o no etiquetados (por ejemplo, fragmentos de código), que a menudo son costosos y difíciles de obtener a gran escala. Para abordar esta limitación, este artículo presenta un método denominado IPC, un marco no supervisado que aprovecha el Sondeo Interno de los LLM para la generación de código, sin necesidad de ningún corpus externo, ni siquiera fragmentos de código no etiquetados. Introducimos el sondeo del espacio del problema, el sondeo de la comprensión de pruebas, el sondeo del espacio de soluciones, y la consolidación y refuerzo del conocimiento para sondear los patrones de conocimiento interno y de confianza existentes en los LLM. Además, IPC identifica candidatos de código confiables mediante mecanismos de auto-consistencia y estimación de calidad basada en representaciones para entrenar a UCoder (un codificador con aprendizaje no supervisado). Validamos el enfoque propuesto en múltiples benchmarks de código, demostrando que los métodos no supervisados pueden lograr un rendimiento competitivo en comparación con los enfoques supervisados, al tiempo que reducen significativamente la dependencia de datos etiquetados y recursos computacionales. Los experimentos analíticos revelan que los estados internos del modelo contienen señales ricas sobre la calidad y corrección del código, y que aprovechar adecuadamente estas señales permite un aprendizaje no supervisado efectivo para tareas de generación de código, abriendo nuevas direcciones para entrenar LLMs de código en escenarios con recursos limitados.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, their effectiveness heavily relies on supervised training with extensive labeled (e.g., question-answering pairs) or unlabeled datasets (e.g., code snippets), which are often expensive and difficult to obtain at scale. To address this limitation, this paper introduces a method IPC, an unsupervised framework that leverages Internal Probing of LLMs for Code generation without any external corpus, even unlabeled code snippets. We introduce the problem space probing, test understanding probing, solution space probing, and knowledge consolidation and reinforcement to probe the internal knowledge and confidence patterns existing in LLMs. Further, IPC identifies reliable code candidates through self-consistency mechanisms and representation-based quality estimation to train UCoder (coder with unsupervised learning). We validate the proposed approach across multiple code benchmarks, demonstrating that unsupervised methods can achieve competitive performance compared to supervised approaches while significantly reducing the dependency on labeled data and computational resources. Analytic experiments reveal that internal model states contain rich signals about code quality and correctness, and that properly harnessing these signals enables effective unsupervised learning for code generation tasks, opening new directions for training code LLMs in resource-constrained scenarios.

UCoder: Generación de Código No Supervisada mediante Sondeo Interno de Modelos de Lenguaje a Gran Escala

UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Resumen

Support