Универсальный YOCO для эффективного масштабирования по глубине
Universal YOCO for Efficient Depth Scaling
April 1, 2026
Авторы: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Аннотация
Подъем масштабирования на этапе тестирования значительно повысил способность крупных языковых моделей (LLM) к рассуждениям и агентной деятельности. Однако стандартные трансформеры не могут эффективно масштабировать вычислительные ресурсы на этапе вывода, поскольку традиционные циклические стратегии страдают от высоких вычислительных затрат и кэша ключей-значений (KV-cache), который увеличивается с глубиной модели. Мы представляем Universal YOCO (YOCO-U), который объединяет архитектуру декодер-декодер YOCO с рекурсивными вычислениями для достижения синергетического эффекта, превосходящего каждый из подходов по отдельности. Построенная на основе фреймворка YOCO, архитектура YOCO-U реализует Универсальный Самодекодер, который выполняет множественные итерации через разделение параметров, ограничивая итерационный процесс неглубокими слоями с эффективной внимательностью. Такое сочетание дает благоприятный баланс между способностями и эффективностью, недостижимый для YOCO или рекурсии по отдельности. Архитектура YOCO обеспечивает постоянный глобальный KV-cache и линейное предзаполнение, в то время как частичная рекурсия усиливает глубину представления при ограниченных накладных расходах. В совокупности YOCO-U улучшает полезность токенов и характер масштабирования, сохраняя эффективный вывод. Эмпирические результаты подтверждают, что YOCO-U сохраняет высокую конкурентоспособность в общих бенчмарках и бенчмарках длинного контекста, демонстрируя, что интеграция архитектур с эффективной внимательностью и рекурсивных вычислений является перспективным направлением для масштабируемых LLM.
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.