ChatPaper.aiChatPaper

텍스트의 내재적 차원 밝히기: 학술 초록에서 창작 이야기까지

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

November 19, 2025
저자: Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, Eduard Tulchinskii, Kristian Kuznetsov, Vladislav Zharchinskii, Yury Maximov, Irina Piontkovskaya
cs.AI

초록

본질적 차원(ID)은 현대 LLM 분석에서 중요한 도구로, 훈련 역학, 확장 행동, 데이터셋 구조에 대한 연구에 기여하지만 그 텍스트적 결정인자는 아직 충분히 탐구되지 않았습니다. 본 연구는 교차 인코더 분석, 언어학적 특성, 희소 오토인코더(SAE)를 통해 해석 가능한 텍스트 속성에 ID를 근거 짓는 첫 번째 포괄적 연구를 제시합니다. 우리는 세 가지 핵심 발견을 정립했습니다. 첫째, ID는 엔트로피 기반 지표와 상호 보완적입니다: 길이를 통제한 후 두 지표는 상관관계가 없으며, ID는 예측 품질과 직교하는 기하학적 복잡성을 포착합니다. 둘째, ID는 강력한 장르 계층화를 보입니다: 과학적 산문은 낮은 ID(~8), 백과사전적 내용은 중간 ID(~9), 창의적/의견 기반 글은 높은 ID(~10.5)를 모든 모델에서 일관되게 나타냅니다. 이는 현대 LLM이 과학 텍스트를 "표현적으로 단순"하게 인식하는 반면, 소설은 추가적인 자유도를 필요로 함을 보여줍니다. 셋째, SAE를 사용하여 인과적 특성을 규명했습니다: 과학적 신호(격식적 어조, 보고서 템플릿, 통계)는 ID를 낮추고, 인간화 신호(개인화, 정서, 서사)는 ID를 증가시킵니다. 스티어링 실험은 이러한 효과가 인과적임을 확인합니다. 따라서 현대 모델에 대해 과학적 글쓰기는 상대적으로 "쉬운" 반면, 소설, 의견, 정서는 표현적 자유도를 추가하는 것으로 나타납니다. 본 다각적 분석은 ID의 적절한 사용과 ID 기반 결과의 건전한 해석을 위한 실용적 지침을 제공합니다.
English
Intrinsic dimension (ID) is an important tool in modern LLM analysis, informing studies of training dynamics, scaling behavior, and dataset structure, yet its textual determinants remain underexplored. We provide the first comprehensive study grounding ID in interpretable text properties through cross-encoder analysis, linguistic features, and sparse autoencoders (SAEs). In this work, we establish three key findings. First, ID is complementary to entropy-based metrics: after controlling for length, the two are uncorrelated, with ID capturing geometric complexity orthogonal to prediction quality. Second, ID exhibits robust genre stratification: scientific prose shows low ID (~8), encyclopedic content medium ID (~9), and creative/opinion writing high ID (~10.5) across all models tested. This reveals that contemporary LLMs find scientific text "representationally simple" while fiction requires additional degrees of freedom. Third, using SAEs, we identify causal features: scientific signals (formal tone, report templates, statistics) reduce ID; humanized signals (personalization, emotion, narrative) increase it. Steering experiments confirm these effects are causal. Thus, for contemporary models, scientific writing appears comparatively "easy", whereas fiction, opinion, and affect add representational degrees of freedom. Our multi-faceted analysis provides practical guidance for the proper use of ID and the sound interpretation of ID-based results.
PDF853December 1, 2025