Redeneren of retoriek? Een empirische analyse van morele redeneerverklaringen in grote taalmodel

Samenvatting

Redeneren grote taalmodellen moreel, of doen ze alleen maar alsof? Wij onderzoeken of LLM-reacties op morele dilemma's een daadwerkelijke ontwikkelingsprogressie vertonen volgens Kohlbergs stadia van morele ontwikkeling, of dat alignmenttraining juist redenerend-achtige output produceert die oppervlakkig lijkt op volwassen moreel oordeel, maar zonder de onderliggende ontwikkelingslijn. Met behulp van een LLM-als-rechter scoringspijplijn, gevalideerd over drie rechtermodelen, classificeren we meer dan 600 reacties van 13 LLM's met uiteenlopende architecturen, parameterschalen en trainingsregimes voor zes klassieke morele dilemma's, en voeren we tien aanvullende analyses uit om de aard en interne samenhang van de resulterende patronen te karakteriseren. Onze resultaten onthullen een opvallende omkering: reacties komen overweldigend overeen met postconventioneel redeneren (Stadia 5-6), ongeacht modelgrootte, architectuur of promptingstrategie. Dit is het effectieve omgekeerde van menselijke ontwikkelingsnormen, waar Stadium 4 domineert. Het meest opvallend is dat een subset van modellen morele ontkoppeling vertoont: een systematische inconsistentie tussen de vermelde morele rechtvaardiging en de gekozen handeling. Dit is een vorm van logische incoherentie die standhoudt over schaal en promptingstrategieën heen en een directe mislukking van redeneerconsistentie vertegenwoordigt, onafhankelijk van retorische verfijning. Modelschaal heeft een statistisch significant maar praktisch klein effect; het type training heeft geen significant onafhankelijk hoofdeffect; en modellen vertonen een bijna robotachtige consistentie over dilemma's heen, waarbij ze logisch ononderscheidbare reacties produceren voor semantisch verschillende morele problemen. Wij stellen dat deze patronen bewijs vormen voor moreel ventriloquisme: de verwerving, via alignmenttraining, van de retorische conventies van volwassen moreel redeneren, zonder de onderliggende ontwikkelingslijn die deze conventies horen te vertegenwoordigen.

English

Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.

Redeneren of retoriek? Een empirische analyse van morele redeneerverklaringen in grote taalmodel

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Samenvatting

Support