Codeerdriehoek: Hoe Begrijpt een Taalmodel op Schaal Code?
Coding Triangle: How Does Large Language Model Understand Code?
July 8, 2025
Auteurs: Taolin Zhang, Zihan Ma, Maosong Cao, Junnan Liu, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in codegeneratie, maar hun werkelijke programmeercompetentie blijft onderbelicht. We introduceren het Code Triangle-raamwerk, dat LLMs systematisch evalueert langs drie fundamentele dimensies: redactionele analyse, code-implementatie en testcasegeneratie. Door uitgebreide experimenten op benchmarks voor competitief programmeren, tonen we aan dat LLMs weliswaar een zelfconsistent systeem kunnen vormen over deze dimensies, maar dat hun oplossingen vaak de diversiteit en robuustheid van menselijke programmeurs missen. We identificeren een significante verschuiving in de verdeling tussen modelcognitie en menselijke expertise, waarbij modelfouten de neiging hebben te clusteren vanwege biases in de trainingsdata en beperkte overdracht van redenering. Onze studie toont aan dat het incorporeren van door mensen gegenereerde redactionele analyses, oplossingen en diverse testcases, evenals het benutten van modelmengsels, zowel de prestaties als de robuustheid van LLMs aanzienlijk kunnen verbeteren. Bovendien onthullen we zowel de consistentie als de inconsistentie in de cognitie van LLMs die zelfreflectie en zelfverbetering kunnen faciliteren, wat een mogelijke richting biedt voor de ontwikkeling van krachtigere coderingsmodellen.
English
Large language models (LLMs) have achieved remarkable progress in code
generation, yet their true programming competence remains underexplored. We
introduce the Code Triangle framework, which systematically evaluates LLMs
across three fundamental dimensions: editorial analysis, code implementation,
and test case generation. Through extensive experiments on competitive
programming benchmarks, we reveal that while LLMs can form a self-consistent
system across these dimensions, their solutions often lack the diversity and
robustness of human programmers. We identify a significant distribution shift
between model cognition and human expertise, with model errors tending to
cluster due to training data biases and limited reasoning transfer. Our study
demonstrates that incorporating human-generated editorials, solutions, and
diverse test cases, as well as leveraging model mixtures, can substantially
enhance both the performance and robustness of LLMs. Furthermore, we reveal
both the consistency and inconsistency in the cognition of LLMs that may
facilitate self-reflection and self-improvement, providing a potential
direction for developing more powerful coding models.