ChatPaper.aiChatPaper

Universelles YOCO für effiziente Skalierung der Tiefe

Universal YOCO for Efficient Depth Scaling

April 1, 2026
Autoren: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

Zusammenfassung

Der Aufstieg von Test-Time Scaling hat die Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Schließens und agentenbasierten Handelns erheblich gesteigert. Dennoch haben Standard-Transformer-Modelle Schwierigkeiten, den Inferenz-Rechenaufwand effizient zu skalieren, da konventionelle Loop-Strategien unter hohem Rechenaufwand und einem KV-Cache leiden, der mit zunehmender Modelltiefe anwächst. Wir stellen Universal YOCO (YOCO-U) vor, das die YOCO-Decoder-Decoder-Architektur mit rekursiver Berechnung kombiniert, um einen synergetischen Effekt zu erzielen, der größer ist als bei jeder der Methoden für sich allein. Aufbauend auf dem YOCO-Framework implementiert YOCO-U einen Universal Self-Decoder, der durch Parameter-Sharing mehrere Iterationen durchführt, wobei der iterative Prozess auf flache, effiziente Attention-Layer beschränkt bleibt. Diese Kombination führt zu einem günstigen Fähigkeits-Effizienz-Kompromiss, den weder YOCO noch Rekursion allein erreichen. Die YOCO-Architektur bietet einen konstanten globalen KV-Cache und lineares Pre-Filling, während partielle Rekursion die Repräsentationstiefe mit begrenztem Mehraufwand erhöht. Gemeinsam verbessert YOCO-U die Token-Nutzung und Skalierungseigenschaften, bei gleichzeitig effizienter Inferenz. Empirische Ergebnisse bestätigen, dass YOCO-U in allgemeinen Benchmarks und bei Langkontext-Benchmarks äußerst wettbewerbsfähig bleibt, was zeigt, dass die Integration von effizienten Attention-Architekturen und rekursiver Berechnung eine vielversprechende Richtung für skalierbare LLMs ist.
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.
PDF111April 3, 2026