Dynamische Grote Conceptmodellen: Latente Redenering in een Adaptieve Semantische Ruimte
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
December 31, 2025
Auteurs: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) passen uniforme berekening toe op alle tokens, ondanks dat taal een zeer niet-uniforme informatiedichtheid vertoont. Dit token-uniforme regime verspilt capaciteit aan lokaal voorspelbare segmenten, terwijl het te weinig rekenkracht toewijst aan semantisch kritieke overgangen. Wij stellen Dynamische Grote Conceptmodellen (DLCM) voor, een hiërarchisch taalmodelraamwerk dat semantische grenzen leert uit latente representaties en rekenkracht verplaatst van tokens naar een gecomprimeerde conceptruimte waar redeneren efficiënter is. DLCM ontdekt variabele-lengte concepten end-to-end zonder te vertrouwen op vooraf gedefinieerde linguïstische eenheden. Hiërarchische compressie verandert het schaalgedrag fundamenteel. Wij introduceren de eerste compressiebewuste schaalwet, die token-level capaciteit, concept-level redeneercapaciteit en compressieratio ontwart, waardoor principeakelijke compute-toewijzing onder vaste FLOP's mogelijk wordt. Om deze heterogene architectuur stabiel te trainen, ontwikkelen we verder een ontkoppelde μP-parametrisering die zero-shot hyperparametertransfer over breedtes en compressieregimes ondersteunt. Bij een praktische instelling (R=4, overeenkomend met een gemiddelde van vier tokens per concept) herverdeelt DLCM ongeveer een derde van de inferentie-rekenkracht naar een backbone met hogere redeneercapaciteit, wat een gemiddelde verbetering van +2,69% oplevert over 12 zero-shot benchmarks onder gelijke inferentie-FLOP's.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.