UCoder: Onbewaakte Codegeneratie door Interne Verkenning van Grote Taalmodellen

Samenvatting

Grootschalige taalmodel(len (LLM's) hebben opmerkelijke capaciteiten getoond bij codegeneratietaken. Hun effectiviteit is echter sterk afhankelijk van supervised training met uitgebreide gelabelde (bijvoorbeeld vraag-antwoordparen) of ongelabelde datasets (zoals codefragmenten), die vaak kostbaar en moeilijk op grote schaal te verkrijgen zijn. Om deze beperking aan te pakken, introduceert dit artikel een methode genaamd IPC, een unsupervised raamwerk dat gebruikmaakt van Internal Probing van LLM's voor codegeneratie zonder enig extern corpus, zelfs zonder ongelabelde codefragmenten. We introduceren problem space probing, test understanding probing, solution space probing, en knowledge consolidation and reinforcement om de interne kennis en betrouwbaarheidspatronen die in LLM's aanwezig zijn te onderzoeken. Verder identificeert IPC betrouwbare codekandidaten via self-consistency-mechanismen en op representatie gebaseerde kwaliteitsschatting om UCoder (een coder met unsupervised learning) te trainen. We valideren de voorgestelde aanpak over meerdere codebenchmarks heen en tonen aan dat unsupervised methoden competitieve prestaties kunnen bereiken in vergelijking met supervised benaderingen, terwijl de afhankelijkheid van gelabelde data en computationele middelen aanzienlijk wordt verminderd. Analytische experimenten onthullen dat interne modelstatussen rijke signalen bevatten over codekwaliteit en -correctheid, en dat het goed benutten van deze signalen effectieve unsupervised learning voor codegeneratietaken mogelijk maakt, wat nieuwe richtingen opent voor het trainen van code-LLM's in scenarios met beperkte middelen.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, their effectiveness heavily relies on supervised training with extensive labeled (e.g., question-answering pairs) or unlabeled datasets (e.g., code snippets), which are often expensive and difficult to obtain at scale. To address this limitation, this paper introduces a method IPC, an unsupervised framework that leverages Internal Probing of LLMs for Code generation without any external corpus, even unlabeled code snippets. We introduce the problem space probing, test understanding probing, solution space probing, and knowledge consolidation and reinforcement to probe the internal knowledge and confidence patterns existing in LLMs. Further, IPC identifies reliable code candidates through self-consistency mechanisms and representation-based quality estimation to train UCoder (coder with unsupervised learning). We validate the proposed approach across multiple code benchmarks, demonstrating that unsupervised methods can achieve competitive performance compared to supervised approaches while significantly reducing the dependency on labeled data and computational resources. Analytic experiments reveal that internal model states contain rich signals about code quality and correctness, and that properly harnessing these signals enables effective unsupervised learning for code generation tasks, opening new directions for training code LLMs in resource-constrained scenarios.

UCoder: Onbewaakte Codegeneratie door Interne Verkenning van Grote Taalmodellen

UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Samenvatting

Support