Dynamische Large Concept Models: Latentes Schließen in einem adaptiven semantischen Raum
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
December 31, 2025
papers.authors: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) wenden gleichmäßige Berechnungen auf alle Tokens an, obwohl Sprache eine hochgradig ungleichmäßige Informationsdichte aufweist. Dieses Token-uniforme Regime verschwendet Kapazität für lokal vorhersehbare Abschnitte, während es Berechnungen für semantisch kritische Übergänge unteralloziert. Wir schlagen Dynamische Große Konzeptmodelle (DLCM) vor, einen hierarchischen Sprachmodellierungsrahmen, der semantische Grenzen aus latenten Repräsentationen lernt und Berechnungen von Tokens in einen komprimierten Konzeptraum verschiebt, in dem das Schließen effizienter ist. DLCM entdeckt variabel lange Konzepte end-to-end, ohne auf vordefinierte linguistische Einheiten angewiesen zu sein. Hierarchische Kompression verändert das Skalierungsverhalten grundlegend. Wir führen das erste kompressionsbewusste Skalierungsgesetz ein, das Token-Level-Kapazität, Konzept-Level-Schlussfolgerungskapazität und Kompressionsverhältnis entwirrt und eine prinzipiengeleitete Rechenzuweisung unter festen FLOPs ermöglicht. Um diese heterogene Architektur stabil zu trainieren, entwickeln wir weiterhin eine entkoppelte μP-Parametrisierung, die den Zero-Shot-Hyperparametertransfer über Breiten und Kompressionsregime hinweg unterstützt. In einer praktischen Einstellung (R=4, was einem Durchschnitt von vier Tokens pro Konzept entspricht) verteilt DLCM etwa ein Drittel der Inferenzrechenleistung auf ein Reasoning-Backbone mit höherer Kapazität um und erzielt unter angeglichenen Inferenz-FLOPs eine durchschnittliche Verbesserung von +2,69 % über 12 Zero-Shot-Benchmarks hinweg.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.