Redes de Largura Virtual

Resumo

Apresentamos as Redes de Largura Virtual (VWN), uma estrutura que oferece os benefícios de representações mais amplas sem incorrer no custo quadrático de aumentar o tamanho da camada oculta. A VWN desacopla a largura representacional da largura da rede principal, expandindo o espaço de incorporação enquanto mantém o cálculo da rede principal quase constante. Em nosso experimento em larga escala, uma expansão de 8 vezes acelerou a otimização em mais de 2 vezes para a previsão do próximo token e em 3 vezes para a previsão dos próximos 2 tokens. A vantagem se amplia ao longo do treinamento, à medida que tanto a diferença de *loss* aumenta quanto a taxa de aceleração da convergência cresce, mostrando que a VWN não é apenas eficiente em tokens, mas também cada vez mais eficaz com a escala. Além disso, identificamos uma relação de escala aproximadamente log-linear entre a largura virtual e a redução do *loss*, oferecendo uma base empírica inicial e motivação para explorar a escala de largura virtual como uma nova dimensão da eficiência de modelos grandes.

English

We introduce Virtual Width Networks (VWN), a framework that delivers the benefits of wider representations without incurring the quadratic cost of increasing the hidden size. VWN decouples representational width from backbone width, expanding the embedding space while keeping backbone compute nearly constant. In our large-scale experiment, an 8-times expansion accelerates optimization by over 2 times for next-token and 3 times for next-2-token prediction. The advantage amplifies over training as both the loss gap grows and the convergence-speedup ratio increases, showing that VWN is not only token-efficient but also increasingly effective with scale. Moreover, we identify an approximately log-linear scaling relation between virtual width and loss reduction, offering an initial empirical basis and motivation for exploring virtual-width scaling as a new dimension of large-model efficiency.