Modelos Dinâmicos de Grandes Conceitos: Raciocínio Latente em um Espaço Semântico Adaptativo

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) aplicam computação uniforme a todos os tokens, apesar de a linguagem exibir uma densidade de informação altamente não uniforme. Este regime token-uniforme desperdiça capacidade em trechos localmente previsíveis, enquanto subaloca computação para transições semanticamente críticas. Propomos os Modelos de Grande Conceito Dinâmicos (DLCM), uma estrutura de modelagem de linguagem hierárquica que aprende limites semânticos a partir de representações latentes e desloca a computação dos tokens para um espaço de conceito comprimido, onde o raciocínio é mais eficiente. O DLCM descobre conceitos de comprimento variável de forma integral (end-to-end) sem depender de unidades linguísticas predefinidas. A compressão hierárquica muda fundamentalmente o comportamento de escalonamento. Introduzimos a primeira lei de escalonamento consciente da compressão, que desacopla a capacidade a nível de token, a capacidade de raciocínio a nível de conceito e a taxa de compressão, permitindo uma alocação de computação fundamentada sob FLOPs fixos. Para treinar esta arquitetura heterogénea de forma estável, desenvolvemos ainda uma parametrização μP desacoplada que suporta a transferência *zero-shot* de hiperparâmetros através de larguras e regimes de compressão. Num cenário prático (R=4, correspondendo a uma média de quatro tokens por conceito), o DLCM realoca aproximadamente um terço da computação de inferência para um *backbone* de raciocínio de maior capacidade, alcançando uma melhoria média de +2,69% em 12 benchmarks *zero-shot* sob FLOPs de inferência equivalentes.

English

Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.

Modelos Dinâmicos de Grandes Conceitos: Raciocínio Latente em um Espaço Semântico Adaptativo

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Resumo

Support