Generalisierte parallele Skalierung mit interdependenten Generationen
Generalized Parallel Scaling with Interdependent Generations
October 1, 2025
papers.authors: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman
cs.AI
papers.abstract
Das Skalieren von parallelen LLM-Inferenzen beinhaltet das Sampling einer Menge von N>1 Antworten für einen einzelnen Eingabe-Prompt. Diese N parallelen Antworten werden jedoch tendenziell unabhängig voneinander generiert, wodurch die Rechenressourcen aufgeteilt werden und potenziell nützliche Informationen in einer Generierung von anderen ungenutzt bleiben. Dies steht im Gegensatz zur Skalierung der Antwortlänge, bei der vergangene Berechnungen in allen zukünftigen Schritten verwendet werden. Um qualitativ hochwertigere Antworten und Antwortmengen zu erzielen, schlagen wir Bridge vor, um interdependente Antworten parallel zu generieren, indem wir gebündelte LLM-Zustände als ganzheitliche Tensoren betrachten und nicht als unabhängige Segmente. Mit nur einer geringen Menge (2,8%-5,1%) neuer Parameter verbessert Bridge die relativen mittleren Genauigkeitsgewinne durch Verstärkungslernen mit überprüfbaren Belohnungen um bis zu 50% und steigert die Konsistenz korrekter Antworten. Einmal trainiert, skaliert Bridge auf jede Generierungsbreite, alles mit besserer Leistung als unabhängige Generierungen, und ermöglicht einen allgemeineren Modus der parallelen Skalierung, der effektiv Informationen zwischen Sequenzen nutzt und mit jeder Post-Generierungs-Aggregationstechnik kompatibel ist.
English
Parallel LLM inference scaling involves sampling a set of N>1 responses for
a single input prompt. However, these N parallel responses tend to be
generated independently from each other, partitioning compute resources and
leaving potentially useful information in one generation untapped by others.
This is in contrast to response length scaling where past computation is used
in all future steps. For higher quality responses and response sets, we propose
Bridge to generate interdependent responses in parallel by rethinking batched
LLM hidden states as holistic tensors rather than independent slices. With only
a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean
accuracy gains from reinforcement learning with verifiable rewards by up to 50%
and boosts consistency of correct responses. Trained once, Bridge scales to any
generation width, all with greater performance than independent generations,
unlocking a more general mode of parallel scaling that effectively leverages
information between sequences, compatible with any post-generation aggregation
technique.