Vernunft oder Rhetorik? Eine empirische Analyse moralischer Begründungserklärungen in großen Sprachmodellen

Zusammenfassung

Denken große Sprachmodelle moralisch, oder klingen sie nur so? Wir untersuchen, ob die Reaktionen von LLMs auf moralische Dilemmata eine echte entwicklungsbezogene Progression durch Kohlbergs Stufen der moralischen Entwicklung aufweisen oder ob Alignment-Training stattdessen reasoning-artige Outputs erzeugt, die oberflächlich reifem moralischen Urteilsvermögen ähneln, ohne die zugrundeliegende Entwicklungsbahn. Unter Verwendung einer LLM-as-Judge-Bewertungspipeline, die über drei Judge-Modelle validiert wurde, klassifizieren wir mehr als 600 Antworten von 13 LLMs, die eine Bandbreite von Architekturen, Parameterskalen und Trainingsregimen abdecken, anhand von sechs klassischen moralischen Dilemmata und führen zehn ergänzende Analysen durch, um die Natur und interne Kohärenz der resultierenden Muster zu charakterisieren. Unsere Ergebnisse zeigen eine frappierende Umkehrung: Die Antworten entsprechen überwiegend postkonventionellem Denken (Stufen 5-6) – unabhängig von Modellgröße, Architektur oder Prompting-Strategie. Dies ist das effektive Gegenteil menschlicher Entwicklungsnormen, bei denen Stufe 4 dominiert. Am auffälligsten ist, dass eine Teilmenge der Modelle eine moralische Entkopplung aufweist: eine systematische Inkonsistenz zwischen der angegebenen moralischen Begründung und der Handlungswahl. Dies ist eine Form logischer Inkohärenz, die über Skalierung und Prompting-Strategie hinweg bestehen bleibt und einen direkten Reasoning-Konsistenzfehler darstellt, der unabhängig von rhetorischer Sophistication ist. Die Modellgröße hat einen statistisch signifikanten, aber praktisch kleinen Effekt; der Trainingstyp hat keinen signifikanten unabhängigen Haupteffekt; und die Modelle zeigen eine nahezu roboterhafte konsistente Übertragbarkeit über Dilemmata hinweg, indem sie logisch ununterscheidbare Antworten auf semantisch distinkte moralische Probleme produzieren. Wir postulieren, dass diese Muster Evidenz für moralischen Bauchrednereffekt darstellen: den Erwerb der rhetorischen Konventionen reifen moralischen Reasoning durch Alignment-Training, ohne die zugrundeliegende Entwicklungsbahn, die diese Konventionen repräsentieren sollen.

English

Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.

Vernunft oder Rhetorik? Eine empirische Analyse moralischer Begründungserklärungen in großen Sprachmodellen

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Zusammenfassung

Support