効率的なテスト時計算スケーリングのための並列ループ変換器
Parallel Loop Transformer for Efficient Test-Time Computation Scaling
October 28, 2025
著者: Bohong Wu, Mengzhao Chen, Xiang Luo, Shen Yan, Qifan Yu, Fan Xia, Tianqi Zhang, Hongrui Zhan, Zheng Zhong, Xun Zhou, Siyuan Qiao, Xingyan Bin
cs.AI
要旨
大規模言語モデル(LLM)は強力であるが、推論時の実用面では処理速度が遅くコストが高いことが多い。ループ化トランスフォーマーは、複数の計算ステップ(「ループ」)で同一の重みを再利用することでパラメータ数を削減する。しかしこの手法には重大な欠点がある。ループが逐次実行されるため、推論の遅延やメモリ要求量がループの追加に伴って増大し、高速な応用には実用的でない。この問題を解決するため、我々は並列ループトランスフォーマー(PLT)を提案する。PLTは新しいアーキテクチャであり、深いループ化モデルの性能を維持しつつ、標準的な非ループモデルと同程度の低遅延を実現する。PLTは二つの核心技術により機能する。第一に、クロスループ並列化(CLP)は、異なるトークンに対する異なるループを単一パス内で同時計算することで、逐次依存性を排除する。第二に、メモリコストの増大を防ぐため、効率的表現強化戦略を採用する。この手法では、第一ループのメモリ(KVキャッシュ)を他の全ループで共有し、ゲート付きスライディングウィンドウ注意機構(G-SWA)を用いて、この共有された大域情報と局所情報を統合することで高精度を維持する。実験により、PLTが従来のループ化モデルと同等の高精度を達成しつつ、標準トランスフォーマーと比べて遅延やメモリコストがほとんど増加しないことを確認した。
English
Large Language Models (LLMs) are powerful but often too slow and costly for
real-world use during inference. Looped transformers save on parameters by
reusing the same weights for multiple computational steps, or "loops." However,
this approach has a major flaw: the loops run one after another, causing
inference latency and memory requirements to increase with each added loop.
This makes them impractical for fast applications. To solve this problem, we
introduce the Parallel Loop Transformer (PLT). PLT is a new architecture that
delivers the performance benefits of a deep, looped model but with the low
latency of a standard, non-looped model. PLT works using two key techniques.
First, Cross-Loop Parallelism (CLP) breaks the sequential dependency by
computing different loops for different tokens at the same time, all within a
single pass. Second, to prevent memory costs from growing, we use an Efficient
Representation Enhancement strategy. This method shares the memory (KV cache)
from the first loop with all other loops. It then uses a Gated Sliding-Window
Attention (G-SWA) to combine this shared global information with local
information, maintaining high accuracy. Our experiments show that PLT achieves
the high accuracy of a traditional looped model but with almost no extra
latency or memory cost compared to a standard transformer.