ChatPaper.aiChatPaper

効率的な深さスケーリングのためのユニバーサルYOCO

Universal YOCO for Efficient Depth Scaling

April 1, 2026
著者: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

要旨

テストタイムスケーリングの台頭は、大規模言語モデル(LLM)の推論能力とエージェント能力を著しく向上させてきた。しかし、標準的なTransformerモデルは、推論時の計算資源を効率的にスケールさせることに苦戦している。従来のループ戦略では計算オーバーヘッドが高く、モデルの深さに比例して膨張するKVキャッシュが問題となる。本論文では、YOCOデコーダ-デコーダ構造と再帰的計算を組み合わせ、両者単独では達成できない相乗効果を発揮するUniversal YOCO(YOCO-U)を提案する。YOCOフレームワーク上に構築されたYOCO-Uは、パラメータ共有を通じて複数回の反復処理を行うユニバーサル自己デコーダを実装し、その反復プロセスを効率的な浅層アテンション層に限定する。この組み合わせにより、YOCO単体または再帰単体では達成できない、優れた能力と効率性のトレードオフを実現する。YOCOアーキテクチャは一定のグローバルKVキャッシュと線形プリフィリングを提供し、部分的な再帰は限定的なオーバーヘッドで表現深度を強化する。これらを統合したYOCO-Uは、効率的な推論を維持しつつ、トークンの利用効率とスケーリング特性を改善する。実験結果は、YOCO-Uが一般ベンチマークおよび長文脈ベンチマークにおいて高い競争力を維持することを確認し、効率的なアテンション構造と再帰的計算の統合が、スケーラブルなLLMの有望な方向性であることを示唆している。
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.
PDF111April 3, 2026