Develando la Dimensión Intrínseca de los Textos: desde el Resumen Académico hasta la Historia Creativa
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
Autores: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
Resumen
La dimensión intrínseca (DI) es una herramienta importante en el análisis moderno de LLM, fundamentando estudios sobre dinámicas de entrenamiento, comportamiento de escalado y estructura de conjuntos de datos, aunque sus determinantes textuales siguen estando poco explorados. Presentamos el primer estudio exhaustivo que fundamenta la DI en propiedades de texto interpretables mediante análisis de codificadores cruzados, características lingüísticas y autoencoders dispersos (SAE). En este trabajo, establecemos tres hallazgos clave. Primero, la DI es complementaria a las métricas basadas en entropía: tras controlar la longitud, ambas no están correlacionadas, capturando la DI una complejidad geométrica ortogonal a la calidad de la predicción. Segundo, la DI exhibe una estratificación robusta por géneros: la prosa científica muestra DI baja (~8), el contenido enciclopédico DI media (~9) y la escritura creativa/de opinión DI alta (~10.5) en todos los modelos evaluados. Esto revela que los LLM contemporáneos encuentran el texto científico "representacionalmente simple", mientras que la ficción requiere grados de libertad adicionales. Tercero, utilizando SAE, identificamos características causales: las señales científicas (tono formal, plantillas de informe, estadísticas) reducen la DI; las señales humanizadas (personalización, emoción, narrativa) la aumentan. Los experimentos de direccionamiento confirman que estos efectos son causales. Por lo tanto, para los modelos contemporáneos, la escritura científica parece comparativamente "fácil", mientras que la ficción, la opinión y el afecto añaden grados de libertad representacionales. Nuestro análisis multifacético proporciona una guía práctica para el uso adecuado de la DI y la interpretación sólida de los resultados basados en DI.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.