LLM's kunnen "hersenverweking" krijgen!
LLMs Can Get "Brain Rot"!
October 15, 2025
Auteurs: Shuo Xing, Junyuan Hong, Yifan Wang, Runjin Chen, Zhenyu Zhang, Ananth Grama, Zhengzhong Tu, Zhangyang Wang
cs.AI
Samenvatting
Wij stellen en testen de LLM Brain Rot Hypothese: voortdurende blootstelling aan rommelige webtekst veroorzaakt een blijvende cognitieve achteruitgang in grote taalmodellen (LLMs). Om de kwaliteit van data causaal te isoleren, voeren we gecontroleerde experimenten uit op echte Twitter/X corpora, waarbij we rommelige en omgekeerd gecontroleerde datasets construeren via twee orthogonale operationalisaties: M1 (betrokkenheidsgraad) en M2 (semantische kwaliteit), met een overeenkomstige tokenschaal en trainingsoperaties in alle condities. In tegenstelling tot de controlegroep veroorzaakt voortdurende pre-training van 4 LLMs op de rommelige dataset aanzienlijke achteruitgangen (Hedges' g>0.3) in redeneren, begrip van lange contexten, veiligheid, en het opblazen van "donkere eigenschappen" (bijv. psychopathie, narcisme). De geleidelijke mengsels van rommelige en gecontroleerde datasets resulteren ook in een dosis-respons cognitieve achteruitgang: bijvoorbeeld, onder M1, daalt ARC-Challenge met Chain Of Thoughts van 74.9 naar 57.2 en RULER-CWE van 84.4 naar 52.3 naarmate het aandeel rommelige data stijgt van 0% naar 100%.
Foutanalyse onthult verschillende belangrijke inzichten. Ten eerste identificeren we gedachte-overslaan als de primaire beschadiging: modellen verkorten of slaan steeds vaker redeneerketens over, wat het grootste deel van de foutengroei verklaart. Ten tweede wordt gedeeltelijk maar onvolledig herstel waargenomen: het opschalen van instructie-tuning en pre-training met schone data verbetert de achteruitgegane cognitie, maar kan de baseline-capaciteit niet herstellen, wat wijst op een blijvende representatiedrift in plaats van een formatmismatch. Tot slot ontdekken we dat de populariteit, een niet-semantische metriek, van een tweet een betere indicator is van het Brain Rot-effect dan de lengte in M1. Samen bieden de resultaten significant, multi-perspectief bewijs dat data kwaliteit een causale drijver is van LLM-capaciteitsverval, wat curatie voor voortdurende pre-training herdefinieert als een veiligheidsprobleem tijdens training en routine "cognitieve gezondheidschecks" motiveert voor geïmplementeerde LLMs.
English
We propose and test the LLM Brain Rot Hypothesis: continual exposure to junk
web text induces lasting cognitive decline in large language models (LLMs). To
causally isolate data quality, we run controlled experiments on real Twitter/X
corpora, constructing junk and reversely controlled datasets via two orthogonal
operationalizations: M1 (engagement degree) and M2 (semantic quality), with
matched token scale and training operations across conditions. Contrary to the
control group, continual pre-training of 4 LLMs on the junk dataset causes
non-trivial declines (Hedges' g>0.3) on reasoning, long-context
understanding, safety, and inflating "dark traits" (e.g., psychopathy,
narcissism). The gradual mixtures of junk and control datasets also yield
dose-response cognition decay: for example, under M1, ARC-Challenge with Chain
Of Thoughts drops 74.9 rightarrow 57.2 and RULER-CWE 84.4 rightarrow 52.3
as junk ratio rises from 0% to 100%.
Error forensics reveal several key insights. First, we identify
thought-skipping as the primary lesion: models increasingly truncate or skip
reasoning chains, explaining most of the error growth. Second, partial but
incomplete healing is observed: scaling instruction tuning and clean data
pre-training improve the declined cognition yet cannot restore baseline
capability, suggesting persistent representational drift rather than format
mismatch. Finally, we discover that the popularity, a non-semantic metric, of a
tweet is a better indicator of the Brain Rot effect than the length in M1.
Together, the results provide significant, multi-perspective evidence that data
quality is a causal driver of LLM capability decay, reframing curation for
continual pretraining as a training-time safety problem and motivating
routine "cognitive health checks" for deployed LLMs.