Ragionamento o Retorica? Un'Analisi Empirica delle Spiegazioni del Ragionamento Morale nei Modelli Linguistici su Larga Scala

Abstract

I modelli linguistici di grandi dimensioni ragionano moralmente, o semplicemente danno l'impressione di farlo? Indaghiamo se le risposte degli LLM ai dilemmi morali mostrano una progressione evolutiva genuina attraverso gli stadi dello sviluppo morale di Kohlberg, o se invece l'addestramento di allineamento produca output simili a ragionamenti che superficialmente assomigliano a giudizi morali maturi, ma privi del percorso evolutivo sottostante. Utilizzando una pipeline di valutazione LLM-giudice convalidata su tre modelli giudice, classifichiamo oltre 600 risposte di 13 LLM che coprono un'ampia gamma di architetture, scale parametriche e regimi di addestramento, relative a sei dilemmi morali classici, e conduciamo dieci analisi complementari per caratterizzare la natura e la coerenza interna degli schemi risultanti. I nostri risultati rivelano un'inversione sorprendente: le risposte corrispondono in modo schiacciante a ragionamenti post-convenzionali (Stadi 5-6) indipendentemente dalle dimensioni del modello, dall'architettura o dalla strategia di prompt, l'esatto inverso delle norme evolutive umane, dove domina lo Stadio 4. Ancora più significativamente, un sottoinsieme di modelli mostra un disaccoppiamento morale: un'incongruenza sistematica tra la giustificazione morale dichiarata e la scelta d'azione, una forma di incoerenza logica che persiste indipendentemente dalla scala e dalla strategia di prompt e rappresenta un fallimento diretto della coerenza ragionativa, indipendente dalla sofisticazione retorica. La scala del modello ha un effetto statisticamente significativo ma praticamente piccolo; il tipo di addestramento non ha un effetto principale indipendente significativo; e i modelli mostrano una coerenza cross-dilemma quasi robotica, producendo risposte logicamente indistinguibili attraverso problemi morali semanticamente distinti. Proponiamo che questi schemi costituiscano evidenza di un ventriloquismo morale: l'acquisizione, tramite l'addestramento di allineamento, delle convenzioni retoriche del ragionamento morale maturo, senza il percorso evolutivo sottostante che tali convenzioni dovrebbero rappresentare.

English

Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.

Ragionamento o Retorica? Un'Analisi Empirica delle Spiegazioni del Ragionamento Morale nei Modelli Linguistici su Larga Scala

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Abstract

Support