Enthüllung der intrinsischen Dimension von Texten: Von der wissenschaftlichen Abstraktion zur kreativen Erzählung
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
papers.authors: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
papers.abstract
Die intrinsische Dimension (ID) ist ein wichtiges Werkzeug in der modernen Analyse großer Sprachmodelle (LLM) und liefert Erkenntnisse für Studien zu Trainingsdynamiken, Skalierungsverhalten und Datenstruktur. Dennoch sind ihre textuellen Determinanten noch unzureichend erforscht. Wir präsentieren die erste umfassende Studie, die ID in interpretierbaren Texteigenschaften durch Cross-Encoder-Analyse, linguistische Merkmale und sparse Autoencoder (SAEs) verankert. In dieser Arbeit stellen wir drei zentrale Erkenntnisse vor. Erstens ist ID komplementär zu entropiebasierten Metriken: Nach Kontrolle der Textlänge sind die beiden Maße unkorreliert, wobei ID geometrische Komplexität erfasst, die orthogonal zur Vorhersagequalität steht. Zweitens zeigt ID eine robuste Genre-Schichtung: Wissenschaftliche Prosa weist eine niedrige ID (~8) auf, enzyklopädischer Inhalt eine mittlere ID (~9) und kreatives/Meinungs-basiertes Schreiben eine hohe ID (~10,5) – über alle getesteten Modelle hinweg. Dies zeigt, dass zeitgenössische LLMs wissenschaftliche Texte als "repräsentational einfach" erfassen, während Fiktion zusätzliche Freiheitsgrade erfordert. Drittens identifizieren wir mit SAEs kausale Merkmale: Wissenschaftliche Signale (formeller Ton, Berichtsvorlagen, Statistiken) reduzieren die ID; humanisierte Signale (Personalisierung, Emotion, Narrativ) erhöhen sie. Steering-Experimente bestätigen, dass diese Effekte kausal sind. Somit erscheint wissenschaftliches Schreiben für aktuelle Modelle vergleichsweise "einfach", wohingegen Fiktion, Meinungen und Emotionalität repräsentationale Freiheitsgrade hinzufügen. Unsere vielschichtige Analyse bietet praktische Leitlinien für den angemessenen Einsatz von ID und die fundierte Interpretation ID-basierter Ergebnisse.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.