Révéler la dimension intrinsèque des textes : du résumé académique à l'histoire créative
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
papers.authors: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
papers.abstract
La dimension intrinsèque (DI) constitue un outil essentiel dans l'analyse moderne des LLM, éclairant les études sur la dynamique d'entraînement, les lois d'échelle et la structure des jeux de données, mais ses déterminants textuels demeurent sous-explorés. Nous présentons la première étude complète ancrant la DI dans des propriétés textuelles interprétables via une analyse par encodeurs croisés, des caractéristiques linguistiques et des autoencodeurs épars (SAE). Dans ce travail, nous établissons trois résultats clés. Premièrement, la DI est complémentaire aux métriques basées sur l'entropie : après contrôle de la longueur, les deux sont non corrélées, la DI captant une complexité géométrique orthogonale à la qualité prédictive. Deuxièmement, la DI présente une stratification robuste par genre : la prose scientifique montre une DI faible (~8), le contenu encyclopédique une DI moyenne (~9) et l'écriture créative/opinion une DI élevée (~10,5) sur tous les modèles testés. Cela révèle que les LLM contemporains trouvent le texte scientifique "simple sur le plan représentationnel" tandis que la fiction nécessite des degrés de liberté supplémentaires. Troisièmement, en utilisant les SAE, nous identifions des caractéristiques causales : les signaux scientifiques (ton formel, modèles de rapport, statistiques) réduisent la DI ; les signaux d'humanisation (personnalisation, émotion, récit) l'augmentent. Des expériences de pilotage confirment que ces effets sont causaux. Ainsi, pour les modèles contemporains, l'écriture scientifique semble relativement "facile", tandis que la fiction, l'opinion et l'affect ajoutent des degrés de liberté représentationnels. Notre analyse multidimensionnelle fournit des conseils pratiques pour l'utilisation appropriée de la DI et l'interprétation rigoureuse des résultats basés sur la DI.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.