Рациональное обоснование или риторика? Эмпирический анализ объяснений моральных суждений в больших языковых моделях

Аннотация

Обладают ли большие языковые модели моральным мышлением или они лишь имитируют его? Мы исследуем, демонстрируют ли ответы LLM на моральные дилеммы подлинную прогрессию через стадии морального развития по Кольбергу, или же обучение согласованию (alignment training) порождает лишь рассужденчески-подобные выводы, которые поверхностно напоминают зрелое моральное суждение без лежащей в его основе траектории развития. Используя валидированный конвейер оценки LLM-как-судьи (LLM-as-judge) на трех моделях-судьях, мы классифицировали более 600 ответов от 13 LLM, охватывающих широкий спектр архитектур, масштабов параметров и режимов обучения, на шести классических моральных дилеммах, и провели десять дополнительных анализов для характеристики природы и внутренней согласованности полученных паттернов. Наши результаты выявляют поразительную инверсию: ответы подавляюще соответствуют постконвенциональному рассуждению (Стадии 5-6) независимо от размера модели, архитектуры или стратегии промптинга, что является эффективной противоположностью человеческих норм развития, где доминирует Стадия 4. Наиболее показательно, что подмножество моделей демонстрирует моральный разрыв (moral decoupling): систематическое несоответствие между заявленным моральным обоснованием и выбором действия — форма логической несогласованности, которая сохраняется при изменении масштаба и стратегии промптинга и представляет собой прямой провал согласованности рассуждений, независимый от риторической изощренности. Масштаб модели оказывает статистически значимый, но практически малый эффект; тип обучения не имеет значимого независимого основного эффекта; и модели демонстрируют почти роботизированную кросс-дилеммную согласованность, порождая логически неразличимые ответы на семантически различные моральные проблемы. Мы предполагаем, что эти паттерны являются свидетельством морального чревовещания (moral ventriloquism): усвоения через обучение согласованию риторических условностей зрелого морального рассуждения без лежащей в их основе траектории развития, которую эти условности призваны отражать.

English

Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.

Рациональное обоснование или риторика? Эмпирический анализ объяснений моральных суждений в больших языковых моделях

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Аннотация

Support