Les LLM peuvent souffrir de « pourrissement cérébral » !
LLMs Can Get "Brain Rot"!
October 15, 2025
papers.authors: Shuo Xing, Junyuan Hong, Yifan Wang, Runjin Chen, Zhenyu Zhang, Ananth Grama, Zhengzhong Tu, Zhangyang Wang
cs.AI
papers.abstract
Nous proposons et testons l’hypothèse de la « Dégénérescence Cognitive des LLM » (LLM Brain Rot Hypothesis) : une exposition continue à des textes de faible qualité sur le web induit un déclin cognitif durable chez les grands modèles de langage (LLM). Pour isoler causalement la qualité des données, nous menons des expériences contrôlées sur des corpus réels de Twitter/X, en construisant des ensembles de données de faible qualité et des ensembles de contrôle inversés via deux opérationnalisations orthogonales : M1 (degré d’engagement) et M2 (qualité sémantique), avec une échelle de tokens et des opérations d’entraînement équivalentes entre les conditions. Contrairement au groupe de contrôle, un pré-entraînement continu de quatre LLM sur l’ensemble de données de faible qualité entraîne des déclins non négligeables (Hedges' g > 0,3) dans le raisonnement, la compréhension de contextes longs, la sécurité et l’amplification de « traits sombres » (par exemple, psychopathie, narcissisme). Les mélanges graduels entre les données de faible qualité et les données de contrôle montrent également une décroissance cognitive dose-réponse : par exemple, sous M1, ARC-Challenge avec Chain Of Thoughts chute de 74,9 à 57,2 et RULER-CWE de 84,4 à 52,3 lorsque le ratio de données de faible qualité passe de 0 % à 100 %.
L’analyse des erreurs révèle plusieurs insights clés. Premièrement, nous identifions le « saut de pensée » comme la principale lésion : les modèles tronquent ou sautent de plus en plus les chaînes de raisonnement, expliquant la majorité de la croissance des erreurs. Deuxièmement, une guérison partielle mais incomplète est observée : l’augmentation du réglage par instruction et du pré-entraînement sur des données propres améliore la cognition dégradée, mais ne permet pas de restaurer les capacités de base, suggérant une dérive représentationnelle persistante plutôt qu’un simple décalage de format. Enfin, nous découvrons que la popularité, une métrique non sémantique, d’un tweet est un meilleur indicateur de l’effet de Dégénérescence Cognitive que la longueur dans M1. Ensemble, ces résultats fournissent des preuves significatives et multi-perspectives que la qualité des données est un facteur causal du déclin des capacités des LLM, repositionnant la curation pour le pré-entraînement continu comme un problème de sécurité à l’entraînement et motivant des « bilans de santé cognitive » réguliers pour les LLM déployés.
English
We propose and test the LLM Brain Rot Hypothesis: continual exposure to junk
web text induces lasting cognitive decline in large language models (LLMs). To
causally isolate data quality, we run controlled experiments on real Twitter/X
corpora, constructing junk and reversely controlled datasets via two orthogonal
operationalizations: M1 (engagement degree) and M2 (semantic quality), with
matched token scale and training operations across conditions. Contrary to the
control group, continual pre-training of 4 LLMs on the junk dataset causes
non-trivial declines (Hedges' g>0.3) on reasoning, long-context
understanding, safety, and inflating "dark traits" (e.g., psychopathy,
narcissism). The gradual mixtures of junk and control datasets also yield
dose-response cognition decay: for example, under M1, ARC-Challenge with Chain
Of Thoughts drops 74.9 rightarrow 57.2 and RULER-CWE 84.4 rightarrow 52.3
as junk ratio rises from 0% to 100%.
Error forensics reveal several key insights. First, we identify
thought-skipping as the primary lesion: models increasingly truncate or skip
reasoning chains, explaining most of the error growth. Second, partial but
incomplete healing is observed: scaling instruction tuning and clean data
pre-training improve the declined cognition yet cannot restore baseline
capability, suggesting persistent representational drift rather than format
mismatch. Finally, we discover that the popularity, a non-semantic metric, of a
tweet is a better indicator of the Brain Rot effect than the length in M1.
Together, the results provide significant, multi-perspective evidence that data
quality is a causal driver of LLM capability decay, reframing curation for
continual pretraining as a training-time safety problem and motivating
routine "cognitive health checks" for deployed LLMs.