Mise à l'échelle parallèle généralisée avec générations interdépendantes
Generalized Parallel Scaling with Interdependent Generations
October 1, 2025
papers.authors: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman
cs.AI
papers.abstract
La mise à l'échelle parallèle de l'inférence des LLM (modèles de langage de grande taille) consiste à échantillonner un ensemble de N>1 réponses pour une seule invite d'entrée. Cependant, ces N réponses parallèles ont tendance à être générées indépendamment les unes des autres, partitionnant ainsi les ressources de calcul et laissant potentiellement des informations utiles dans une génération inexploitées par les autres. Cela contraste avec la mise à l'échelle de la longueur des réponses, où les calculs passés sont utilisés dans toutes les étapes futures. Pour obtenir des réponses et des ensembles de réponses de meilleure qualité, nous proposons Bridge, qui génère des réponses interdépendantes en parallèle en repensant les états cachés des LLM par lots comme des tenseurs holistiques plutôt que des tranches indépendantes. Avec seulement une petite quantité (2,8 % à 5,1 %) de nouveaux paramètres, Bridge améliore les gains relatifs de précision moyenne de l'apprentissage par renforcement avec des récompenses vérifiables jusqu'à 50 % et renforce la cohérence des réponses correctes. Une fois entraîné, Bridge s'adapte à toute largeur de génération, tout en offrant une performance supérieure à celle des générations indépendantes, débloquant ainsi un mode plus général de mise à l'échelle parallèle qui exploite efficacement les informations entre les séquences, compatible avec toute technique d'agrégation post-génération.
English
Parallel LLM inference scaling involves sampling a set of N>1 responses for
a single input prompt. However, these N parallel responses tend to be
generated independently from each other, partitioning compute resources and
leaving potentially useful information in one generation untapped by others.
This is in contrast to response length scaling where past computation is used
in all future steps. For higher quality responses and response sets, we propose
Bridge to generate interdependent responses in parallel by rethinking batched
LLM hidden states as holistic tensors rather than independent slices. With only
a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean
accuracy gains from reinforcement learning with verifiable rewards by up to 50%
and boosts consistency of correct responses. Trained once, Bridge scales to any
generation width, all with greater performance than independent generations,
unlocking a more general mode of parallel scaling that effectively leverages
information between sequences, compatible with any post-generation aggregation
technique.