ChatPaper.aiChatPaper

動的大概念モデル:適応的意味空間における潜在推論

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

December 31, 2025
著者: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI

要旨

大規模言語モデル(LLM)は、言語が高度に非一様な情報密度を示すにもかかわらず、全てのトークンに対して均一な計算を適用する。このトークン均一的な体制は、局所的に予測可能な範囲では容量を浪費し、意味的に重要な遷移には計算リソースを過少配分している。本論文では、動的大規模概念モデル(DLCM)を提案する。これは、潜在表現から意味的境界を学習し、計算をトークンから圧縮された概念空間へ移行することで、推論を効率化する階層的言語モデリングフレームワークである。DLCMは、事前定義された言語単位に依存せず、可変長の概念をエンドツーエンドで発見する。階層的圧縮はスケーリング挙動を根本的に変化させる。我々は、トークンレベルの容量、概念レベルの推論容量、圧縮率を分離した最初の圧縮対応スケーリング則を導入し、固定FLOPsにおける原理的な計算配分を可能にする。この不均一アーキテクチャを安定して訓練するため、幅と圧縮体制を跨いだゼロショットハイパーパラメータ転送をサポートする分離型μPパラメータ化をさらに開発した。実用的な設定(R=4、つまり1概念あたり平均4トークンに相当)において、DLCMは推論計算の約3分の1を高容量の推論バックボーンに再配分し、推論FLOPsが同等の条件下で12のゼロショットベンチマークにおいて平均+2.69%の改善を達成した。
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.
PDF242January 3, 2026