Параллельный Петлевой Трансформер для Эффективного Масштабирования Вычислений во Время Тестирования

Аннотация

Крупные языковые модели (LLM) обладают высокой мощностью, но часто оказываются слишком медленными и дорогостоящими для практического применения на этапе вывода (инференса). Петлевые трансформеры (Looped Transformers) экономят параметры за счёт многократного использования одних и тех же весов на нескольких вычислительных шагах, или «петлях». Однако у этого подхода есть серьёзный недостаток: петли выполняются последовательно, что приводит к увеличению задержки вывода и требований к памяти с каждой добавленной петлей. Это делает их непрактичными для приложений, требующих высокой скорости. Для решения этой проблемы мы представляем Параллельный Петлевой Трансформер (Parallel Loop Transformer, PLT). PLT — это новая архитектура, которая обеспечивает производительность глубокой петлевой модели, но с низкой задержкой, характерной для стандартной непетлевой модели. Работа PLT основана на двух ключевых методах. Во-первых, **Межпетлевой Параллелизм (Cross-Loop Parallelism, CLP)** разрывает последовательную зависимость, вычисляя различные петли для различных токенов одновременно, в рамках единого прохода. Во-вторых, чтобы предотвратить рост затрат памяти, мы используем стратегию **Эффективного Улучшения Представлений (Efficient Representation Enhancement)**. Этот метод разделяет память (KV-кэш) из первой петли со всеми последующими петлями. Затем используется **Внимание с Управляемым Скользящим Окном (Gated Sliding-Window Attention, G-SWA)** для объединения этой общей глобальной информации с локальной, что позволяет сохранить высокую точность. Наши эксперименты показывают, что PLT достигает высокой точности традиционной петлевой модели, но практически без дополнительной задержки или затрат памяти по сравнению со стандартным трансформером.

English

Large Language Models (LLMs) are powerful but often too slow and costly for real-world use during inference. Looped transformers save on parameters by reusing the same weights for multiple computational steps, or "loops." However, this approach has a major flaw: the loops run one after another, causing inference latency and memory requirements to increase with each added loop. This makes them impractical for fast applications. To solve this problem, we introduce the Parallel Loop Transformer (PLT). PLT is a new architecture that delivers the performance benefits of a deep, looped model but with the low latency of a standard, non-looped model. PLT works using two key techniques. First, Cross-Loop Parallelism (CLP) breaks the sequential dependency by computing different loops for different tokens at the same time, all within a single pass. Second, to prevent memory costs from growing, we use an Efficient Representation Enhancement strategy. This method shares the memory (KV cache) from the first loop with all other loops. It then uses a Gated Sliding-Window Attention (G-SWA) to combine this shared global information with local information, maintaining high accuracy. Our experiments show that PLT achieves the high accuracy of a traditional looped model but with almost no extra latency or memory cost compared to a standard transformer.

Параллельный Петлевой Трансформер для Эффективного Масштабирования Вычислений во Время Тестирования

Parallel Loop Transformer for Efficient Test-Time Computation Scaling

Аннотация

Support