Triángulo de Codificación: ¿Cómo Comprende el Código un Modelo de Lenguaje a Gran Escala?

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en la generación de código, aunque su verdadera competencia en programación sigue siendo poco explorada. Presentamos el marco del Triángulo de Código, que evalúa sistemáticamente los LLMs en tres dimensiones fundamentales: análisis editorial, implementación de código y generación de casos de prueba. A través de experimentos exhaustivos en benchmarks de programación competitiva, revelamos que, aunque los LLMs pueden formar un sistema autoconsistente en estas dimensiones, sus soluciones a menudo carecen de la diversidad y robustez de los programadores humanos. Identificamos un cambio significativo en la distribución entre la cognición del modelo y la experiencia humana, con errores del modelo que tienden a agruparse debido a sesgos en los datos de entrenamiento y una transferencia limitada de razonamiento. Nuestro estudio demuestra que la incorporación de editoriales, soluciones y casos de prueba diversos generados por humanos, así como el uso de mezclas de modelos, puede mejorar sustancialmente tanto el rendimiento como la robustez de los LLMs. Además, revelamos tanto la consistencia como la inconsistencia en la cognición de los LLMs que podrían facilitar la autorreflexión y la automejora, proporcionando una dirección potencial para el desarrollo de modelos de codificación más potentes.

English

Large language models (LLMs) have achieved remarkable progress in code generation, yet their true programming competence remains underexplored. We introduce the Code Triangle framework, which systematically evaluates LLMs across three fundamental dimensions: editorial analysis, code implementation, and test case generation. Through extensive experiments on competitive programming benchmarks, we reveal that while LLMs can form a self-consistent system across these dimensions, their solutions often lack the diversity and robustness of human programmers. We identify a significant distribution shift between model cognition and human expertise, with model errors tending to cluster due to training data biases and limited reasoning transfer. Our study demonstrates that incorporating human-generated editorials, solutions, and diverse test cases, as well as leveraging model mixtures, can substantially enhance both the performance and robustness of LLMs. Furthermore, we reveal both the consistency and inconsistency in the cognition of LLMs that may facilitate self-reflection and self-improvement, providing a potential direction for developing more powerful coding models.

Triángulo de Codificación: ¿Cómo Comprende el Código un Modelo de Lenguaje a Gran Escala?

Coding Triangle: How Does Large Language Model Understand Code?

Resumen

Support