YOCO Universal para Dimensionamento Eficiente em Profundidade
Universal YOCO for Efficient Depth Scaling
April 1, 2026
Autores: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Resumo
A ascensão do escalonamento no momento do teste (test-time scaling) aumentou notavelmente a proficiência de raciocínio e de agência dos Grandes Modelos de Linguagem (LLMs). No entanto, os Transformers padrão lutam para escalar o cálculo no momento da inferência de forma eficiente, uma vez que as estratégias convencionais de loop sofrem com alta sobrecarga computacional e um cache de Chave-Valor (KV) que infla juntamente com a profundidade do modelo. Apresentamos o Universal YOCO (YOCO-U), que combina a arquitetura decoder-decoder do YOCO com computação recursiva para alcançar um efeito sinérgico maior do que qualquer um dos dois isoladamente. Construído sobre a estrutura YOCO, o YOCO-U implementa um Auto-Decodificador Universal (Universal Self-Decoder) que realiza múltiplas iterações através do compartilhamento de parâmetros, confinando o processo iterativo a camadas de atenção eficiente e superficiais. Esta combinação resulta numa relação capacidade-eficiência favorável que nem o YOCO nem a recursão alcançam independentemente. A arquitetura YOCO fornece um cache KV global constante e um pré-preenchimento linear, enquanto a recursão parcial aumenta a profundidade representacional com sobrecarga limitada. Juntos, o YOCO-U melhora a utilidade dos tokens e o comportamento de escalonamento, mantendo uma inferência eficiente. Resultados empíricos confirmam que o YOCO-U mantém-se altamente competitivo em benchmarks gerais e de contexto longo, demonstrando que a integração de arquiteturas de atenção eficiente e computação recursiva é uma direção promissora para LLMs escaláveis.
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.