テキストの内在的次元を明らかにする:学術的抄録から創造的物語へ
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
November 19, 2025
著者: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI
要旨
本質次元(ID)は、現代のLLM分析における重要なツールであり、学習ダイナミクス、スケーリング挙動、データセット構造の研究に寄与しているが、そのテキスト的規定要因は未解明のままである。本研究は、クロスエンコーダ分析、言語特徴量、スパースオートエンコーダ(SAE)を通じて、IDを解釈可能なテキスト特性に根ざした初の包括的検証を提供する。本論文では3つの主要な知見を確立する。第一に、IDはエントロピーベースの指標と相補的である:長さを統制した後、両者に相関はなく、IDは予測精度とは直交する幾何学的複雑性を捕捉する。第二に、IDは頑健なジャンル階層性を示す:科学的散文は低ID(~8)、百科事典的コンテンツは中程度ID(~9)、創造的/意見文は高ID(~10.5)を、テストした全モデルで一貫して示した。これは、現代のLLMが科学的テキストを「表現的に単純」と見なし、一方で小説には追加の自由度が必要であることを明らかにする。第三に、SAEを用いて因果的特徴を特定:科学的シグナル(形式ばった文体、報告書テンプレート、統計)はIDを低下させ、人間化シグナル(個人化、感情、物語性)はIDを増加させる。ステアリング実験によりこれらの効果が因果的であることを確認。したがって、現代のモデルにおいて科学的文章は比較的「容易」であるのに対し、小説、意見文、情感表現は表現的な自由度を追加すると言える。我々の多面的分析は、IDの適切な使用法とIDに基づく結果の適切な解釈に向けた実践的指針を提供する。
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.