Gegeneraliseerde parallelle schaling met onderling afhankelijke generaties
Generalized Parallel Scaling with Interdependent Generations
October 1, 2025
Auteurs: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman
cs.AI
Samenvatting
Parallelle LLM-inferentieschaling omvat het bemonsteren van een set van N>1 reacties voor een enkele invoerprompt. Deze N parallelle reacties worden echter meestal onafhankelijk van elkaar gegenereerd, waardoor rekenbronnen worden verdeeld en potentieel nuttige informatie in één generatie onbenut blijft voor andere. Dit staat in contrast met schaling van responslengte, waarbij eerdere berekeningen worden gebruikt in alle toekomstige stappen. Voor hogere kwaliteit van reacties en reactiesets stellen we Bridge voor om onderling afhankelijke reacties parallel te genereren door batchgewijze LLM-verborgen toestanden te herzien als holistische tensoren in plaats van onafhankelijke segmenten. Met slechts een kleine hoeveelheid (2,8%-5,1%) nieuwe parameters verbetert Bridge de relatieve gemiddelde nauwkeurigheidswinsten van reinforcement learning met verifieerbare beloningen met tot wel 50% en verhoogt het de consistentie van correcte reacties. Eenmaal getraind, schaalt Bridge naar elke generatiebreedte, allemaal met betere prestaties dan onafhankelijke generaties, waardoor een meer algemene modus van parallelle schaling wordt ontsloten die effectief informatie tussen sequenties benut, compatibel met elke post-generatie aggregatietechniek.
English
Parallel LLM inference scaling involves sampling a set of N>1 responses for
a single input prompt. However, these N parallel responses tend to be
generated independently from each other, partitioning compute resources and
leaving potentially useful information in one generation untapped by others.
This is in contrast to response length scaling where past computation is used
in all future steps. For higher quality responses and response sets, we propose
Bridge to generate interdependent responses in parallel by rethinking batched
LLM hidden states as holistic tensors rather than independent slices. With only
a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean
accuracy gains from reinforcement learning with verifiable rewards by up to 50%
and boosts consistency of correct responses. Trained once, Bridge scales to any
generation width, all with greater performance than independent generations,
unlocking a more general mode of parallel scaling that effectively leverages
information between sequences, compatible with any post-generation aggregation
technique.