ChatPaper.aiChatPaper

동적 대규모 개념 모델: 적응형 의미 공간에서의 잠재적 추론

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

December 31, 2025
저자: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
cs.AI

초록

대규모 언어 모델(LLM)은 언어가 매우 불균일한 정보 밀도를 보임에도 불구하고 모든 토큰에 균일한 계산을 적용합니다. 이러한 토큰 균일 처리 방식은 지역적으로 예측 가능한 구간에 대한 용량을 낭비하는 동시에 의미론적으로 중요한 전환 지점에 대한 계산을 충분히 할당하지 못합니다. 본 연구에서는 잠재 표현으로부터 의미적 경계를 학습하고, 계산을 토큰에서 추론이 더 효율적인 압축된 개념 공간으로 전환하는 계층적 언어 모델링 프레임워크인 동적 대규모 개념 모델(DLCM)을 제안합니다. DLCM은 미리 정의된 언어 단위에 의존하지 않고 종단간 방식으로 가변 길이 개념을 발견합니다. 계층적 압축은 확장 양상을 근본적으로 변화시킵니다. 우리는 토큰 수준 용량, 개념 수준 추론 용량, 압축률을 분리하여 고정된 FLOPs 하에서 체계적인 계산 할당을 가능하게 하는 최초의 압축 인지 확장 법칙을 소개합니다. 이러한 이질적 아키텍처를 안정적으로 학습시키기 위해, 우리는 다양한 폭(width)과 압축 체계 간에 제로샷 하이퍼파라미터 전이를 지원하는 분리된 μP 매개변수화 방법을 추가로 개발했습니다. 실용적인 설정(R=4, 개념 당 평균 4개 토큰에 해당)에서 DLCM은 추론 계산량의 약 1/3을 더 높은 용량의 추론 백본으로 재할당하여, 동일한 추론 FLOPs 조건에서 12개의 제로샷 벤치마크에 걸쳐 평균 +2.69%의 성능 향상을 달성했습니다.
English
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.
PDF242January 3, 2026