Triangle de Codage : Comment les Grands Modèles de Langage Comprennent-ils le Code ?
Coding Triangle: How Does Large Language Model Understand Code?
July 8, 2025
papers.authors: Taolin Zhang, Zihan Ma, Maosong Cao, Junnan Liu, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont réalisé des progrès remarquables dans la génération de code, mais leur véritable compétence en programmation reste insuffisamment explorée. Nous introduisons le cadre du Triangle de Code, qui évalue systématiquement les LLMs selon trois dimensions fondamentales : l'analyse éditoriale, l'implémentation de code et la génération de cas de test. À travers des expériences approfondies sur des benchmarks de programmation compétitive, nous révélons que, bien que les LLMs puissent former un système auto-cohérent à travers ces dimensions, leurs solutions manquent souvent de la diversité et de la robustesse des programmeurs humains. Nous identifions un décalage significatif entre la cognition des modèles et l'expertise humaine, les erreurs des modèles ayant tendance à se regrouper en raison des biais des données d'entraînement et d'un transfert de raisonnement limité. Notre étude démontre que l'intégration d'éditoriaux, de solutions et de cas de test diversifiés générés par des humains, ainsi que l'utilisation de mélanges de modèles, peuvent considérablement améliorer à la fois la performance et la robustesse des LLMs. De plus, nous révélons à la fois la cohérence et l'incohérence dans la cognition des LLMs, ce qui pourrait faciliter l'auto-réflexion et l'auto-amélioration, offrant ainsi une direction potentielle pour le développement de modèles de codage plus puissants.
English
Large language models (LLMs) have achieved remarkable progress in code
generation, yet their true programming competence remains underexplored. We
introduce the Code Triangle framework, which systematically evaluates LLMs
across three fundamental dimensions: editorial analysis, code implementation,
and test case generation. Through extensive experiments on competitive
programming benchmarks, we reveal that while LLMs can form a self-consistent
system across these dimensions, their solutions often lack the diversity and
robustness of human programmers. We identify a significant distribution shift
between model cognition and human expertise, with model errors tending to
cluster due to training data biases and limited reasoning transfer. Our study
demonstrates that incorporating human-generated editorials, solutions, and
diverse test cases, as well as leveraging model mixtures, can substantially
enhance both the performance and robustness of LLMs. Furthermore, we reveal
both the consistency and inconsistency in the cognition of LLMs that may
facilitate self-reflection and self-improvement, providing a potential
direction for developing more powerful coding models.