¿Razonamiento o Retórica? Un Análisis Empírico de las Explicaciones de Razonamiento Moral en Modelos de Lenguaje a Gran Escala
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models
March 23, 2026
Autores: Aryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain
cs.AI
Resumen
¿Los grandes modelos de lenguaje razonan moralmente, o simplemente dan la impresión de hacerlo? Investigamos si las respuestas de los LLM a dilemas morales exhiben una progresión evolutiva genuina a través de las etapas del desarrollo moral de Kohlberg, o si, por el contrario, el entrenamiento de alineación produce salidas que se asemejan al razonamiento y que superficialmente se parecen a un juicio moral maduro, pero sin la trayectoria de desarrollo subyacente. Utilizando un sistema de puntuación con un LLM como juez, validado en tres modelos jueces, clasificamos más de 600 respuestas de 13 LLMs que abarcan una variedad de arquitecturas, escalas de parámetros y regímenes de entrenamiento, en seis dilemas morales clásicos, y realizamos diez análisis complementarios para caracterizar la naturaleza y la coherencia interna de los patrones resultantes. Nuestros resultados revelan una inversión sorprendente: las respuestas se corresponden abrumadoramente con un razonamiento posconvencional (Etapas 5-6), independientemente del tamaño del modelo, la arquitectura o la estrategia de *prompting*, lo que supone la inversión efectiva de las normas del desarrollo humano, donde domina la Etapa 4. Lo más llamativo es que un subconjunto de modelos exhibe un desacoplamiento moral: una inconsistencia sistemática entre la justificación moral declarada y la elección de acción, una forma de incoherencia lógica que persiste a través de la escala y la estrategia de *prompting* y que representa un fallo directo de consistencia en el razonamiento, independiente de la sofisticación retórica. La escala del modelo tiene un efecto estadísticamente significativo pero prácticamente pequeño; el tipo de entrenamiento no tiene un efecto principal independiente significativo; y los modelos exhiben una consistencia casi robótica entre dilemas, produciendo respuestas lógicamente indistinguibles en problemas morales semánticamente distintos. Postulamos que estos patrones constituyen evidencia de un ventriloquismo moral: la adquisición, mediante el entrenamiento de alineación, de las convenciones retóricas del razonamiento moral maduro sin la trayectoria de desarrollo subyacente que esas convenciones pretenden representar.
English
Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.