Revelando a Dimensão Intrínseca dos Textos: do Resumo Acadêmico à Narrativa Criativa

Resumo

A dimensão intrínseca (DI) é uma ferramenta importante na análise moderna de LLMs, fundamentando estudos sobre dinâmicas de treinamento, comportamento de escalonamento e estrutura de conjuntos de dados, mas os seus determinantes textuais permanecem pouco explorados. Apresentamos o primeiro estudo abrangente que ancora a DI em propriedades de texto interpretáveis através de análise de codificadores cruzados, características linguísticas e auto codificadores esparsos (SAEs). Neste trabalho, estabelecemos três descobertas principais. Primeiro, a DI é complementar às métricas baseadas em entropia: após controlar o comprimento, as duas são não correlacionadas, com a DI capturando uma complexidade geométrica ortogonal à qualidade da previsão. Segundo, a DI exibe uma estratificação robusta por género: a prosa científica apresenta DI baixa (~8), o conteúdo enciclopédico DI média (~9) e a escrita criativa/opinativa DI alta (~10,5) em todos os modelos testados. Isto revela que os LLMs contemporâneos consideram o texto científico "representacionalmente simples", enquanto a ficção requer graus de liberdade adicionais. Terceiro, usando SAEs, identificamos características causais: sinais científicos (tom formal, modelos de relatório, estatísticas) reduzem a DI; sinais humanizados (personalização, emoção, narrativa) aumentam-na. Experiências de orientação confirmam que estes efeitos são causais. Assim, para os modelos contemporâneos, a escrita científica parece comparativamente "fácil", enquanto a ficção, a opinião e o afeto adicionam graus de liberdade representacionais. A nossa análise multifacetada fornece orientação prática para o uso adequado da DI e para a interpretação sólida de resultados baseados na DI.

English

Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.

Revelando a Dimensão Intrínseca dos Textos: do Resumo Acadêmico à Narrativa Criativa

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

Resumo

Support