Scalabilità Parallela Generalizzata con Generazioni Interdipendenti
Generalized Parallel Scaling with Interdependent Generations
October 1, 2025
Autori: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman
cs.AI
Abstract
Il parallel scaling dell'inferenza di LLM prevede il campionamento di un insieme di N>1 risposte per un singolo prompt di input. Tuttavia, queste N risposte parallele tendono a essere generate in modo indipendente l'una dall'altra, suddividendo le risorse di calcolo e lasciando potenzialmente utili informazioni in una generazione non sfruttate dalle altre. Ciò è in contrasto con il response length scaling, dove il calcolo passato viene utilizzato in tutti i passaggi futuri. Per ottenere risposte e insiemi di risposte di qualità superiore, proponiamo Bridge per generare risposte interdipendenti in parallelo, ripensando gli stati nascosti degli LLM in batch come tensori olistici piuttosto che come sezioni indipendenti. Con solo una piccola quantità (2,8%-5,1%) di nuovi parametri, Bridge migliora i guadagni relativi di accuratezza media derivanti dall'apprendimento per rinforzo con ricompense verificabili fino al 50% e aumenta la coerenza delle risposte corrette. Una volta addestrato, Bridge si adatta a qualsiasi larghezza di generazione, ottenendo prestazioni superiori rispetto alle generazioni indipendenti, sbloccando una modalità più generale di parallel scaling che sfrutta efficacemente le informazioni tra le sequenze, compatibile con qualsiasi tecnica di aggregazione post-generazione.
English
Parallel LLM inference scaling involves sampling a set of N>1 responses for
a single input prompt. However, these N parallel responses tend to be
generated independently from each other, partitioning compute resources and
leaving potentially useful information in one generation untapped by others.
This is in contrast to response length scaling where past computation is used
in all future steps. For higher quality responses and response sets, we propose
Bridge to generate interdependent responses in parallel by rethinking batched
LLM hidden states as holistic tensors rather than independent slices. With only
a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean
accuracy gains from reinforcement learning with verifiable rewards by up to 50%
and boosts consistency of correct responses. Trained once, Bridge scales to any
generation width, all with greater performance than independent generations,
unlocking a more general mode of parallel scaling that effectively leverages
information between sequences, compatible with any post-generation aggregation
technique.