ChatPaper.aiChatPaper

Modèles Dynamiques de Grands Concepts : Raisonnement Latent dans un Espace Sémantique Adaptatif

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

December 31, 2025
papers.authors: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI

papers.abstract

Les modèles de langage à grande échelle (LLM) appliquent un calcul uniforme à tous les tokens, bien que le langage présente une densité d'information hautement non uniforme. Ce régime token-uniforme gaspille de la capacité sur des séquences localement prévisibles tout en sous-allouant les calculs aux transitions sémantiquement critiques. Nous proposons les Modèles Dynamiques de Grands Concepts (DLCM), un cadre de modélisation du langage hiérarchique qui apprend les frontières sémantiques à partir de représentations latentes et transfère les calculs des tokens vers un espace conceptuel compressé où le raisonnement est plus efficace. DLCM découvre des concepts de longueur variable de bout en bout sans s'appuyer sur des unités linguistiques prédéfinies. La compression hiérarchique modifie fondamentalement le comportement de mise à l'échelle. Nous introduisons la première loi d'échelle sensible à la compression, qui dissocie la capacité au niveau token, la capacité de raisonnement au niveau conceptuel et le taux de compression, permettant une allocation de calcul raisonnée sous des FLOPs fixes. Pour entraîner de manière stable cette architecture hétérogène, nous développons en outre une paramétrisation μP découplée qui supporte un transfert zéro-shot des hyperparamètres entre différentes largeurs et régimes de compression. Dans un cadre pratique (R=4, correspondant à une moyenne de quatre tokens par concept), DLCM réalloue environ un tiers du calcul d'inférence vers un backbone de raisonnement de plus grande capacité, obtenant une amélioration moyenne de +2,69 % sur 12 benchmarks en zéro-shot sous des FLOPs d'inférence équivalents.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.
PDF242January 3, 2026