Raciocínio ou Retórica? Uma Análise Empírica das Explicações de Raciocínio Moral em Modelos de Linguagem de Grande Escala

Resumo

Os grandes modelos de linguagem raciocinam moralmente ou apenas parecem fazê-lo? Investigamos se as respostas de LLMs a dilemas morais exibem uma progressão desenvolvimental genuína através dos estágios do desenvolvimento moral de Kohlberg, ou se o treinamento de alinhamento produz, em vez disso, outputs semelhantes a raciocínio que se assemelham superficialmente a julgamentos morais maduros sem a trajetória desenvolvimental subjacente. Utilizando um *pipeline* de pontuação com LLM-como-juiz validado em três modelos juízes, classificamos mais de 600 respostas de 13 LLMs abrangendo uma variedade de arquiteturas, escalas de parâmetros e regimes de treinamento em seis dilemas morais clássicos, e conduzimos dez análises complementares para caracterizar a natureza e a coerência interna dos padrões resultantes. Nossos resultados revelam uma inversão impressionante: as respostas correspondem esmagadoramente ao raciocínio pós-convencional (Estágios 5-6), independentemente do tamanho do modelo, arquitetura ou estratégia de *prompting*, o inverso efetivo das normas desenvolvimentais humanas, onde o Estágio 4 domina. Mais notavelmente, um subconjunto de modelos exibe *desacoplamento moral*: inconsistência sistemática entre a justificação moral declarada e a escolha de ação, uma forma de incoerência lógica que persiste através da escala e da estratégia de *prompting* e representa uma falha direta de consistência do raciocínio, independente da sofisticação retórica. A escala do modelo tem um efeito estatisticamente significativo, mas praticamente pequeno; o tipo de treinamento não tem um efeito principal independente significativo; e os modelos exibem uma consistência quase robótica entre dilemas, produzindo respostas logicamente indistinguíveis em problemas morais semanticamente distintos. Posicionamos que estes padrões constituem evidência para o *ventriloquismo moral*: a aquisição, através do treinamento de alinhamento, das convenções retóricas do raciocínio moral maduro sem a trajetória desenvolvimental subjacente que essas convenções pretendem representar.

English

Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.

Raciocínio ou Retórica? Uma Análise Empírica das Explicações de Raciocínio Moral em Modelos de Linguagem de Grande Escala

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Resumo

Support