YOCO Universel pour une Mise à l'Échelle Efficace de la Profondeur
Universal YOCO for Efficient Depth Scaling
April 1, 2026
Auteurs: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Résumé
L'essor du scaling au moment de l'inférence a considérablement accru les capacités de raisonnement et d'agentivité des grands modèles de langage (LLM). Pourtant, les Transformers standard peinent à adapter efficacement le calcul lors de l'inférence, car les stratégies de bouclage conventionnelles souffrent d'une charge computationnelle élevée et d'un cache KV qui gonfle avec la profondeur du modèle. Nous présentons Universal YOCO (YOCO-U), qui combine l'architecture décodeur-décodeur de YOCO avec le calcul récursif pour obtenir un effet synergique supérieur à chaque approche isolée. Construit sur le framework YOCO, YOCO-U implémente un Auto-Décodeur Universel qui effectue de multiples itérations via le partage de paramètres, tout en limitant le processus itératif à des couches à attention efficace et peu profondes. Cette combinaison offre un compromis capacité-efficacité favorable qu'aucune des deux techniques seule n'atteint. L'architecture YOCO fournit un cache KV global constant et un pré-remplissage linéaire, tandis que la récursion partielle améliore la profondeur représentationnelle avec une surcharge limitée. Ensemble, YOCO-U améliore l'utilité des tokens et le comportement de mise à l'échelle tout en maintenant une inférence efficace. Les résultats empiriques confirment que YOCO-U reste très compétitif dans les benchmarks généraux et à contexte long, démontrant que l'intégration d'architectes à attention efficace et de calculs récursifs est une voie prometteuse pour les LLM scalables.
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.