ChatPaper.aiChatPaper

Динамические модели больших концептов: скрытое рассуждение в адаптивном семантическом пространстве

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

December 31, 2025
Авторы: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI

Аннотация

Крупные языковые модели (LLM) применяют единообразные вычисления ко всем токенам, несмотря на то, что язык характеризуется крайне неравномерной плотностью информации. Такой равномерный по токенам режим растрачивает вычислительную мощность на локально предсказуемые участки, одновременно недостаточно выделяя ресурсов на семантически важные переходы. Мы предлагаем Динамические модели крупных концептов (DLCM) — иерархическую framework моделирования языка, которая обучается определять семантические границы по латентным представлениям и переносит вычисления с токенов в сжатое концептуальное пространство, где рассуждения эффективнее. DLCM обнаруживает концепты переменной длины сквозным образом, не опираясь на предопределенные лингвистические единицы. Иерархическое сжатие фундаментально меняет характер масштабирования. Мы представляем первый закон масштабирования, учитывающий сжатие, который разделяет ёмкость на уровне токенов, ёмкость для рассуждений на уровне концептов и коэффициент сжатия, что позволяет осуществлять принципиальное распределение вычислений при фиксированных FLOPs. Для стабильного обучения этой гетерогенной архитектуры мы дополнительно разработали развязанную μP-параметризацию, которая поддерживает zero-shot перенос гиперпараметров между разной шириной моделей и режимами сжатия. В практической конфигурации (R=4, что соответствует усреднённому объединению четырёх токенов в один концепт) DLCM перераспределяет примерно треть вычислительных затрат на стадии вывода в бэкбон для рассуждений с большей ёмкостью, демонстрируя в среднем улучшение на +2.69% на 12 zero-shot бенчмарках при равных FLOPs на вывод.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.
PDF242January 3, 2026