Quanto Vale Uma Recorrência? Leis de Escala de Iso-Profundidade para Modelos de Linguagem com Loop

Resumo

Medimos o valor de uma recorrência adicional para um modelo de linguagem em loop (com recorrência em profundidade), expresso em parâmetros únicos equivalentes. A partir de uma varredura iso-depth de 116 execuções de pré-treinamento abrangendo contagens de recorrência r em {1, 2, 4, 8} e um intervalo de ~50x no custo computacional de treinamento, ajustamos uma lei de escala conjunta L = E + A.(N_once + r^φ N_rec)^{-α} + B.D^{-β} e obtemos um novo expoente de equivalência de recorrência φ= 0,46. Intuitivamente, φ indica se executar um bloco em loop r vezes é equivalente em perda de validação a r blocos únicos de um modelo sem loop (equivalência total, φ=1) ou a um único bloco executado repetidamente sem ganho de capacidade (φ=0). Nosso φ= 0,46 situa-se no meio termo, de modo que cada recorrência adicional aumenta previsivelmente a perda de validação para um mesmo custo computacional de treinamento. Por exemplo, em r=4, um modelo em loop com 410M de parâmetros tem desempenho equivalente a um modelo sem loop de 580M, mas incorre no custo de treinamento de um modelo sem loop de 1B. Demonstramos a utilidade de φ como ferramenta de medição em duas sondagens. A retropropagação truncada reduz φ para 0,38, indicando que o mecanismo de loop é mal treinado sob truncamento, mesmo que a perda de validação diminua. Por outro lado, as hiperconexões elevam φ para 0,65, representando um ganho genuíno de capacidade. Nosso método aplica-se a qualquer modelo de linguagem em loop e separa melhorias reais no loop de ganhos orçamentários de *tokens*.

English

We measure how much one extra recurrence is worth to a looped (depth-recurrent) language model, in equivalent unique parameters. From an iso-depth sweep of 116 pretraining runs across recurrence counts r in {1, 2, 4, 8} spanning {sim}50times in training compute, we fit a joint scaling law L = E + A,(N_once + r^φ N_rec)^{-α} + B,D^{-β} and recover a new recurrence-equivalence exponent φ= 0.46. Intuitively, φ tells us whether looping a block r times is equivalent in validation loss to r unique blocks of a non-looped model (full equivalence, φ{=}1) or to a single block run repeatedly with no capacity gain (φ{=}0). Our φ= 0.46 sits in between, so each additional recurrence predictably increases validation loss at matched training compute. For example, at r{=}4 a 410M looped model performs on par with a 580M non-looped model, but incurs the training cost of a 1B non-looped one. We demonstrate the utility of φ as a measurement tool on two probes. Truncated backpropagation lowers φ to 0.38, indicating that the loop mechanism is poorly trained under truncation, even though validation loss decreases. Conversely, hyperconnections raise φ to 0.65, a genuine capacity gain. Our method applies to any looped LM and separates true loop improvements from token-budget gains.

Quanto Vale Uma Recorrência? Leis de Escala de Iso-Profundidade para Modelos de Linguagem com Loop

How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

Resumo

Support