LLMs Podem Desenvolver "Degeneração Cerebral"!
LLMs Can Get "Brain Rot"!
October 15, 2025
Autores: Shuo Xing, Junyuan Hong, Yifan Wang, Runjin Chen, Zhenyu Zhang, Ananth Grama, Zhengzhong Tu, Zhangyang Wang
cs.AI
Resumo
Propomos e testamos a Hipótese de Degeneração Cerebral em LLMs: a exposição contínua a textos de baixa qualidade na web induz um declínio cognitivo duradouro em modelos de linguagem de grande escala (LLMs). Para isolar causalmente a qualidade dos dados, realizamos experimentos controlados em corpora reais do Twitter/X, construindo conjuntos de dados de baixa qualidade e controlados inversamente por meio de duas operacionalizações ortogonais: M1 (grau de engajamento) e M2 (qualidade semântica), com escala de tokens e operações de treinamento correspondentes entre as condições. Contrariamente ao grupo de controle, o pré-treinamento contínuo de 4 LLMs no conjunto de dados de baixa qualidade causa declínios significativos (Hedges' g>0,3) no raciocínio, compreensão de contexto longo, segurança e inflação de "traços sombrios" (por exemplo, psicopatia, narcisismo). As misturas graduais de conjuntos de dados de baixa qualidade e controlados também resultam em um decaimento cognitivo dose-resposta: por exemplo, sob M1, o ARC-Challenge com Chain of Thoughts cai de 74,9 para 57,2 e o RULER-CWE de 84,4 para 52,3 à medida que a proporção de dados de baixa qualidade aumenta de 0% para 100%.
A análise forense de erros revela várias percepções-chave. Primeiro, identificamos o "pensamento pulado" como a principal lesão: os modelos truncam ou pulam cada vez mais cadeias de raciocínio, explicando a maior parte do crescimento de erros. Segundo, observamos uma cura parcial, mas incompleta: o ajuste de instruções em escala e o pré-treinamento com dados limpos melhoram a cognição declinada, mas não conseguem restaurar a capacidade basal, sugerindo um desvio representacional persistente em vez de uma incompatibilidade de formato. Por fim, descobrimos que a popularidade, uma métrica não semântica, de um tweet é um indicador melhor do efeito de Degeneração Cerebral do que o comprimento em M1. Juntos, os resultados fornecem evidências significativas e multiperspectivas de que a qualidade dos dados é um fator causal do declínio de capacidade dos LLMs, reenquadrando a curadoria para pré-treinamento contínuo como um problema de segurança no tempo de treinamento e motivando "verificações de saúde cognitiva" rotineiras para LLMs implantados.
English
We propose and test the LLM Brain Rot Hypothesis: continual exposure to junk
web text induces lasting cognitive decline in large language models (LLMs). To
causally isolate data quality, we run controlled experiments on real Twitter/X
corpora, constructing junk and reversely controlled datasets via two orthogonal
operationalizations: M1 (engagement degree) and M2 (semantic quality), with
matched token scale and training operations across conditions. Contrary to the
control group, continual pre-training of 4 LLMs on the junk dataset causes
non-trivial declines (Hedges' g>0.3) on reasoning, long-context
understanding, safety, and inflating "dark traits" (e.g., psychopathy,
narcissism). The gradual mixtures of junk and control datasets also yield
dose-response cognition decay: for example, under M1, ARC-Challenge with Chain
Of Thoughts drops 74.9 rightarrow 57.2 and RULER-CWE 84.4 rightarrow 52.3
as junk ratio rises from 0% to 100%.
Error forensics reveal several key insights. First, we identify
thought-skipping as the primary lesion: models increasingly truncate or skip
reasoning chains, explaining most of the error growth. Second, partial but
incomplete healing is observed: scaling instruction tuning and clean data
pre-training improve the declined cognition yet cannot restore baseline
capability, suggesting persistent representational drift rather than format
mismatch. Finally, we discover that the popularity, a non-semantic metric, of a
tweet is a better indicator of the Brain Rot effect than the length in M1.
Together, the results provide significant, multi-perspective evidence that data
quality is a causal driver of LLM capability decay, reframing curation for
continual pretraining as a training-time safety problem and motivating
routine "cognitive health checks" for deployed LLMs.