Het Ontsluieren van de Intrinsieke Dimensie van Teksten: van Academische Samenvatting tot Creatief Verhaal
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
Auteurs: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
Samenvatting
Intrinsieke dimensie (ID) is een belangrijk instrument in de moderne analyse van grote taalmodelen (LLM's), en vormt de basis voor studies naar trainingsdynamiek, schaalgedrag en datasetstructuur. Desalniettemin zijn de tekstuele determinanten ervan nog onderbelicht. Wij presenteren de eerste uitgebreide studie die ID verankert in interpreteerbare teksteigenschappen via cross-encoder-analyse, linguïstische kenmerken en sparse autoencoders (SAE's). In dit werk leggen we drie belangrijke bevindingen vast. Ten eerste is ID complementair aan entropie-gebaseerde metrieken: na correctie voor lengte zijn de twee niet gecorreleerd, waarbij ID de geometrische complexiteit vastlegt die orthogonaal staat tot voorspellingskwaliteit. Ten tweede vertoont ID een robuuste genrestratificatie: wetenschappelijk proza vertoont een lage ID (~8), encyclopedische inhoud een gemiddelde ID (~9) en creatief/opiniegericht schrijven een hoge ID (~10,5) in alle geteste modellen. Dit onthult dat hedendaagse LLM's wetenschappelijke tekst "representatief eenvoudig" vinden, terwijl fictie extra vrijheidsgraden vereist. Ten derde identificeren we met behulp van SAE's causale kenmerken: wetenschappelijke signalen (formele toon, rapporttemplates, statistieken) verlagen de ID; menselijke signalen (personalisatie, emotie, verhaal) verhogen deze. Stuurexperimenten bevestigen dat deze effecten causaal zijn. Voor hedendaagse modellen lijkt wetenschappelijk schrijven dus relatief "makkelijk", terwijl fictie, opinie en emotie representatieve vrijheidsgraden toevoegen. Onze veelzijdige analyse biedt praktische richtlijnen voor het correcte gebruik van ID en de degelijke interpretatie van ID-gebaseerde resultaten.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.