Modelos Dinámicos de Conceptos a Gran Escala: Razonamiento Latente en un Espacio Semántico Adaptativo
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
December 31, 2025
Autores: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLM) aplican un cómputo uniforme a todos los tokens, a pesar de que el lenguaje exhibe una densidad de información altamente no uniforme. Este régimen token-uniforme desperdicia capacidad en tramos localmente predecibles mientras sub-asigna cómputo a transiciones semánticamente críticas. Proponemos los Modelos Dinámicos de Conceptos Grandes (DLCM), un marco de modelado de lenguaje jerárquico que aprende límites semánticos a partir de representaciones latentes y desplaza el cómputo de los tokens a un espacio de conceptos comprimido donde el razonamiento es más eficiente. DLCM descubre conceptos de longitud variable de extremo a extremo sin depender de unidades lingüísticas predefinidas. La compresión jerárquica cambia fundamentalmente el comportamiento de escalado. Introducimos la primera ley de escalado consciente de la compresión, que desacopla la capacidad a nivel de token, la capacidad de razonamiento a nivel de concepto y la tasa de compresión, permitiendo una asignación de cómputo principlada bajo FLOPs fijos. Para entrenar de forma estable esta arquitectura heterogénea, desarrollamos además una parametrización μP desacoplada que soporta la transferencia *zero-shot* de hiperparámetros a través de anchos y regímenes de compresión. En un ajuste práctico (R=4, correspondiente a un promedio de cuatro tokens por concepto), DLCM reasigna aproximadamente un tercio del cómputo de inferencia a un *backbone* de razonamiento de mayor capacidad, logrando una mejora promedio de +2.69% en 12 benchmarks *zero-shot* bajo FLOPs de inferencia equivalentes.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.