Codeerdriehoek: Hoe Begrijpt een Taalmodel op Schaal Code?

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in codegeneratie, maar hun werkelijke programmeercompetentie blijft onderbelicht. We introduceren het Code Triangle-raamwerk, dat LLMs systematisch evalueert langs drie fundamentele dimensies: redactionele analyse, code-implementatie en testcasegeneratie. Door uitgebreide experimenten op benchmarks voor competitief programmeren, tonen we aan dat LLMs weliswaar een zelfconsistent systeem kunnen vormen over deze dimensies, maar dat hun oplossingen vaak de diversiteit en robuustheid van menselijke programmeurs missen. We identificeren een significante verschuiving in de verdeling tussen modelcognitie en menselijke expertise, waarbij modelfouten de neiging hebben te clusteren vanwege biases in de trainingsdata en beperkte overdracht van redenering. Onze studie toont aan dat het incorporeren van door mensen gegenereerde redactionele analyses, oplossingen en diverse testcases, evenals het benutten van modelmengsels, zowel de prestaties als de robuustheid van LLMs aanzienlijk kunnen verbeteren. Bovendien onthullen we zowel de consistentie als de inconsistentie in de cognitie van LLMs die zelfreflectie en zelfverbetering kunnen faciliteren, wat een mogelijke richting biedt voor de ontwikkeling van krachtigere coderingsmodellen.

English

Large language models (LLMs) have achieved remarkable progress in code generation, yet their true programming competence remains underexplored. We introduce the Code Triangle framework, which systematically evaluates LLMs across three fundamental dimensions: editorial analysis, code implementation, and test case generation. Through extensive experiments on competitive programming benchmarks, we reveal that while LLMs can form a self-consistent system across these dimensions, their solutions often lack the diversity and robustness of human programmers. We identify a significant distribution shift between model cognition and human expertise, with model errors tending to cluster due to training data biases and limited reasoning transfer. Our study demonstrates that incorporating human-generated editorials, solutions, and diverse test cases, as well as leveraging model mixtures, can substantially enhance both the performance and robustness of LLMs. Furthermore, we reveal both the consistency and inconsistency in the cognition of LLMs that may facilitate self-reflection and self-improvement, providing a potential direction for developing more powerful coding models.

Codeerdriehoek: Hoe Begrijpt een Taalmodel op Schaal Code?

Coding Triangle: How Does Large Language Model Understand Code?

Samenvatting

Support