Modelli Dinamici per Grandi Concetti: Ragionamento Latente in uno Spazio Semantico Adattivo

Abstract

I Large Language Model (LLM) applicano un calcolo uniforme a tutti i token, nonostante il linguaggio presenti una densità di informazione altamente non uniforme. Questo regime token-uniforme spreca capacità su sequenze localmente prevedibili, mentre sottoutilizza il calcolo per le transizioni semanticamente critiche. Proponiamo i Dynamic Large Concept Models (DLCM), un framework di modellazione linguistica gerarchico che apprende i confini semantici dalle rappresentazioni latenti e sposta il calcolo dai token a uno spazio concettuale compresso dove il ragionamento è più efficiente. Il DLCM scopre concetti a lunghezza variabile end-to-end senza fare affidamento su unità linguistiche predefinite. La compressione gerarchica cambia fondamentalmente il comportamento di scaling. Introduciamo la prima legge di scaling consapevole della compressione, che separa la capacità a livello di token, la capacità di ragionamento a livello di concetto e il rapporto di compressione, consentendo un'allocazione principled delle risorse di calcolo sotto un numero fisso di FLOP. Per addestrare in modo stabile questa architettura eterogenea, sviluppiamo inoltre una parametrizzazione μP disaccoppiata che supporta il trasferimento zero-shot degli iperparametri attraverso diverse ampiezze e regimi di compressione. In un'impostazione pratica (R=4, corrispondente a una media di quattro token per concetto), il DLCM riallocca circa un terzo del calcolo inferenziale in un backbone di ragionamento a capacità più elevata, ottenendo un miglioramento medio del +2,69% su 12 benchmark zero-shot a parità di FLOP inferenziali.

English

Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose Dynamic Large Concept Models (DLCM), a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first compression-aware scaling law, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a decoupled μP parametrization that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a +2.69\% average improvement across 12 zero-shot benchmarks under matched inference FLOPs.

Modelli Dinamici per Grandi Concetti: Ragionamento Latente in uno Spazio Semantico Adattivo

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Abstract

Support