Раскрытие внутренней размерности текстов: от академического реферата до художественного рассказа
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
Авторы: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
Аннотация
Внутренняя размерность (ID) является важным инструментом в современном анализе больших языковых моделей (LLM), информируя исследования динамики обучения, масштабируемости и структуры наборов данных, однако её текстовые детерминанты остаются малоизученными. Мы представляем первое всестороннее исследование, связывающее ID с интерпретируемыми свойствами текста посредством анализа кросс-энкодеров, лингвистических признаков и разреженных автоэнкодеров (SAE). В данной работе мы устанавливаем три ключевых вывода. Во-первых, ID дополняет метрики, основанные на энтропии: после контроля длины они не коррелируют, при этом ID фиксирует геометрическую сложность, ортогональную качеству предсказания. Во-вторых, ID демонстрирует устойчивую стратификацию по жанрам: научная проза показывает низкий ID (~8), энциклопедический контент — средний (~9), а творческие/публицистические тексты — высокий (~10.5) для всех протестированных моделей. Это показывает, что современные LLM находят научные тексты «репрезентативно простыми», в то время как художественная литература требует дополнительных степеней свободы. В-третьих, используя SAE, мы идентифицируем причинные признаки: научные сигналы (формальный тон, шаблоны отчетов, статистика) снижают ID; гуманизированные сигналы (персонализация, эмоции, нарратив) — увеличивают его. Эксперименты по управлению подтверждают причинность этих эффектов. Таким образом, для современных моделей научное письмо кажется сравнительно «легким», тогда как художественная литература, мнения и аффект добавляют репрезентативные степени свободы. Наш многогранный анализ предоставляет практические рекомендации для корректного использования ID и обоснованной интерпретации результатов, основанных на ID.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.