Svelare la Dimensione Intrinseca dei Testi: dall'Abstract Accademico alla Storia Creativa
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
Autori: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
Abstract
La dimensione intrinseca (ID) è uno strumento importante nell'analisi moderna dei LLM, che informa gli studi sulle dinamiche di addestramento, sul comportamento di scaling e sulla struttura dei dataset, eppure i suoi determinanti testuali rimangono poco esplorati. Forniamo il primo studio completo che ancorà l'ID a proprietà testuali interpretabili attraverso l'analisi cross-encoder, caratteristiche linguistiche e autoencoder sparsi (SAE). In questo lavoro, stabiliamo tre risultati chiave. In primo luogo, l'ID è complementare alle metriche basate sull'entropia: dopo aver controllato per la lunghezza, le due sono incorrelate, con l'ID che cattura una complessità geometrica ortogonale alla qualità predittiva. In secondo luogo, l'ID mostra una stratificazione robusta per genere: la prosa scientifica mostra ID bassa (~8), i contenuti enciclopedici ID media (~9) e la scrittura creativa/d'opinione ID alta (~10,5) in tutti i modelli testati. Ciò rivela che i LLM contemporanei trovano il testo scientifico "rappresentazionalmente semplice", mentre la narrativa richiede gradi di libertà aggiuntivi. In terzo luogo, utilizzando gli SAE, identifichiamo caratteristiche causali: i segnali scientifici (tono formale, modelli di report, statistiche) riducono l'ID; i segnali umanizzati (personalizzazione, emozione, narrazione) la aumentano. Esperimenti di steering confermano che questi effetti sono causali. Pertanto, per i modelli contemporanei, la scrittura scientifica appare relativamente "facile", mentre la narrativa, l'opinione e l'affetto aggiungono gradi di libertà rappresentazionali. La nostra analisi multisfaccettata fornisce una guida pratica per l'uso corretto dell'ID e per l'interpretazione solida dei risultati basati sull'ID.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.