Triangle de Codage : Comment les Grands Modèles de Langage Comprennent-ils le Code ?

papers.abstract

Les grands modèles de langage (LLMs) ont réalisé des progrès remarquables dans la génération de code, mais leur véritable compétence en programmation reste insuffisamment explorée. Nous introduisons le cadre du Triangle de Code, qui évalue systématiquement les LLMs selon trois dimensions fondamentales : l'analyse éditoriale, l'implémentation de code et la génération de cas de test. À travers des expériences approfondies sur des benchmarks de programmation compétitive, nous révélons que, bien que les LLMs puissent former un système auto-cohérent à travers ces dimensions, leurs solutions manquent souvent de la diversité et de la robustesse des programmeurs humains. Nous identifions un décalage significatif entre la cognition des modèles et l'expertise humaine, les erreurs des modèles ayant tendance à se regrouper en raison des biais des données d'entraînement et d'un transfert de raisonnement limité. Notre étude démontre que l'intégration d'éditoriaux, de solutions et de cas de test diversifiés générés par des humains, ainsi que l'utilisation de mélanges de modèles, peuvent considérablement améliorer à la fois la performance et la robustesse des LLMs. De plus, nous révélons à la fois la cohérence et l'incohérence dans la cognition des LLMs, ce qui pourrait faciliter l'auto-réflexion et l'auto-amélioration, offrant ainsi une direction potentielle pour le développement de modèles de codage plus puissants.

English

Large language models (LLMs) have achieved remarkable progress in code generation, yet their true programming competence remains underexplored. We introduce the Code Triangle framework, which systematically evaluates LLMs across three fundamental dimensions: editorial analysis, code implementation, and test case generation. Through extensive experiments on competitive programming benchmarks, we reveal that while LLMs can form a self-consistent system across these dimensions, their solutions often lack the diversity and robustness of human programmers. We identify a significant distribution shift between model cognition and human expertise, with model errors tending to cluster due to training data biases and limited reasoning transfer. Our study demonstrates that incorporating human-generated editorials, solutions, and diverse test cases, as well as leveraging model mixtures, can substantially enhance both the performance and robustness of LLMs. Furthermore, we reveal both the consistency and inconsistency in the cognition of LLMs that may facilitate self-reflection and self-improvement, providing a potential direction for developing more powerful coding models.

Triangle de Codage : Comment les Grands Modèles de Langage Comprennent-ils le Code ?

Coding Triangle: How Does Large Language Model Understand Code?

papers.abstract

Support