Gli LLM Possono "Marcire il Cervello"!

Abstract

Proponiamo e testiamo l'Ipotesi del Degrado Cerebrale nei LLM: l'esposizione continua a testi di bassa qualità provenienti dal web induce un declino cognitivo duraturo nei grandi modelli linguistici (LLM). Per isolare causalmente la qualità dei dati, conduciamo esperimenti controllati su corpora reali di Twitter/X, costruendo dataset di bassa qualità e dataset di controllo inverso attraverso due operazionalizzazioni ortogonali: M1 (grado di coinvolgimento) e M2 (qualità semantica), con scala di token e operazioni di training bilanciate tra le condizioni. Contrariamente al gruppo di controllo, il pre-training continuo di 4 LLM sul dataset di bassa qualità causa declini significativi (Hedges' g>0.3) nel ragionamento, nella comprensione di contesti lunghi, nella sicurezza e nell'incremento di "tratti oscuri" (ad esempio, psicopatia, narcisismo). Le miscele graduali di dataset di bassa qualità e di controllo producono anche un decadimento cognitivo dose-risposta: ad esempio, in M1, ARC-Challenge con Chain Of Thoughts scende da 74.9 a 57.2 e RULER-CWE da 84.4 a 52.3 man mano che la percentuale di dati di bassa qualità aumenta dallo 0% al 100%. L'analisi degli errori rivela diverse intuizioni chiave. In primo luogo, identifichiamo il salto di pensiero come la lesione principale: i modelli troncano o saltano sempre più le catene di ragionamento, spiegando gran parte della crescita degli errori. In secondo luogo, osserviamo una guarigione parziale ma incompleta: il tuning delle istruzioni e il pre-training con dati puliti migliorano la cognizione deteriorata, ma non riescono a ripristinare le capacità di base, suggerendo una deriva rappresentativa persistente piuttosto che un disallineamento di formato. Infine, scopriamo che la popolarità, una metrica non semantica, di un tweet è un indicatore migliore dell'effetto di Degrado Cerebrale rispetto alla lunghezza in M1. Insieme, i risultati forniscono prove significative e multiprospettiche che la qualità dei dati è un fattore causale del declino delle capacità dei LLM, ridefinendo la curazione per il pre-training continuo come un problema di sicurezza durante l'addestramento e motivando controlli di routine della "salute cognitiva" per i LLM in produzione.

English

We propose and test the LLM Brain Rot Hypothesis: continual exposure to junk web text induces lasting cognitive decline in large language models (LLMs). To causally isolate data quality, we run controlled experiments on real Twitter/X corpora, constructing junk and reversely controlled datasets via two orthogonal operationalizations: M1 (engagement degree) and M2 (semantic quality), with matched token scale and training operations across conditions. Contrary to the control group, continual pre-training of 4 LLMs on the junk dataset causes non-trivial declines (Hedges' g>0.3) on reasoning, long-context understanding, safety, and inflating "dark traits" (e.g., psychopathy, narcissism). The gradual mixtures of junk and control datasets also yield dose-response cognition decay: for example, under M1, ARC-Challenge with Chain Of Thoughts drops 74.9 rightarrow 57.2 and RULER-CWE 84.4 rightarrow 52.3 as junk ratio rises from 0% to 100%. Error forensics reveal several key insights. First, we identify thought-skipping as the primary lesion: models increasingly truncate or skip reasoning chains, explaining most of the error growth. Second, partial but incomplete healing is observed: scaling instruction tuning and clean data pre-training improve the declined cognition yet cannot restore baseline capability, suggesting persistent representational drift rather than format mismatch. Finally, we discover that the popularity, a non-semantic metric, of a tweet is a better indicator of the Brain Rot effect than the length in M1. Together, the results provide significant, multi-perspective evidence that data quality is a causal driver of LLM capability decay, reframing curation for continual pretraining as a training-time safety problem and motivating routine "cognitive health checks" for deployed LLMs.

Gli LLM Possono "Marcire il Cervello"!

LLMs Can Get "Brain Rot"!

Abstract

Support