Reti a Larghezza Virtuale

Abstract

Introduciamo le Virtual Width Networks (VWN), un framework che fornisce i vantaggi di rappresentazioni più ampie senza incorrere nel costo quadratico dell'aumento della dimensione dello strato nascosto. Le VWN disaccoppiano l'ampiezza rappresentativa dall'ampiezza della backbone, espandendo lo spazio di embedding mantenendo quasi costante il calcolo della backbone. Nel nostro esperimento su larga scala, un'espansione di 8 volte accelera l'ottimizzazione di oltre 2 volte per la predizione del token successivo e di 3 volte per la predizione dei 2 token successivi. Il vantaggio si amplifica durante l'addestramento man mano che cresce il divario della loss e aumenta il rapporto di accelerazione della convergenza, dimostrando che le VWN non sono solo efficienti in termini di token, ma anche sempre più efficaci con la scala. Inoltre, identifichiamo una relazione di scaling approssimativamente log-lineare tra l'ampiezza virtuale e la riduzione della loss, offrendo una base empirica iniziale e una motivazione per esplorare lo scaling dell'ampiezza virtuale come una nuova dimensione dell'efficienza dei modelli di grandi dimensioni.

English

We introduce Virtual Width Networks (VWN), a framework that delivers the benefits of wider representations without incurring the quadratic cost of increasing the hidden size. VWN decouples representational width from backbone width, expanding the embedding space while keeping backbone compute nearly constant. In our large-scale experiment, an 8-times expansion accelerates optimization by over 2 times for next-token and 3 times for next-2-token prediction. The advantage amplifies over training as both the loss gap grows and the convergence-speedup ratio increases, showing that VWN is not only token-efficient but also increasingly effective with scale. Moreover, we identify an approximately log-linear scaling relation between virtual width and loss reduction, offering an initial empirical basis and motivation for exploring virtual-width scaling as a new dimension of large-model efficiency.