Обобщённое параллельное масштабирование с взаимозависимыми поколениями
Generalized Parallel Scaling with Interdependent Generations
October 1, 2025
Авторы: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman
cs.AI
Аннотация
Масштабирование параллельного вывода в больших языковых моделях (LLM) предполагает выборку набора из N>1 ответов для одного входного запроса. Однако эти N параллельных ответов, как правило, генерируются независимо друг от друга, что приводит к разделению вычислительных ресурсов и оставляет потенциально полезную информацию в одном поколении ответов неиспользованной другими. Это отличается от масштабирования по длине ответа, где прошлые вычисления используются на всех последующих шагах. Для повышения качества ответов и наборов ответов мы предлагаем подход Bridge, который генерирует взаимозависимые ответы параллельно, рассматривая пакетные скрытые состояния LLM как целостные тензоры, а не независимые срезы. С добавлением всего небольшого количества (2,8%-5,1%) новых параметров, Bridge улучшает относительный прирост средней точности при обучении с подкреплением с проверяемыми наградами до 50% и повышает согласованность правильных ответов. Обучившись один раз, Bridge масштабируется на любую ширину генерации, демонстрируя более высокую производительность по сравнению с независимыми генерациями, открывая более общий режим параллельного масштабирования, который эффективно использует информацию между последовательностями и совместим с любой техникой постгенерационной агрегации.
English
Parallel LLM inference scaling involves sampling a set of N>1 responses for
a single input prompt. However, these N parallel responses tend to be
generated independently from each other, partitioning compute resources and
leaving potentially useful information in one generation untapped by others.
This is in contrast to response length scaling where past computation is used
in all future steps. For higher quality responses and response sets, we propose
Bridge to generate interdependent responses in parallel by rethinking batched
LLM hidden states as holistic tensors rather than independent slices. With only
a small amount (2.8%-5.1%) of new parameters, Bridge improves the relative mean
accuracy gains from reinforcement learning with verifiable rewards by up to 50%
and boosts consistency of correct responses. Trained once, Bridge scales to any
generation width, all with greater performance than independent generations,
unlocking a more general mode of parallel scaling that effectively leverages
information between sequences, compatible with any post-generation aggregation
technique.