YOCO Universal para un Escalado Eficiente en Profundidad

Resumen

El auge del escalado en tiempo de prueba ha impulsado notablemente la capacidad de razonamiento y competencia agentiva de los Modelos de Lenguaje a Gran Escala (LLM). Sin embargo, los Transformers estándar tienen dificultades para escalar eficientemente el cómputo en tiempo de inferencia, ya que las estrategias de bucle convencionales adolecen de una alta sobrecarga computacional y una caché KV que se infla junto con la profundidad del modelo. Presentamos Universal YOCO (YOCO-U), que combina la arquitectura decodificador-decodificador de YOCO con la computación recursiva para lograr un efecto sinérgico mayor que cualquiera de los dos por separado. Construido sobre el marco YOCO, YOCO-U implementa un Auto-Decodificador Universal que realiza múltiples iteraciones mediante el uso compartido de parámetros, mientras confina el proceso iterativo a capas de atención eficiente y superficiales. Esta combinación produce un equilibrio favorable entre capacidad y eficiencia que ni YOCO ni la recursión logran de forma independiente. La arquitectura YOCO proporciona una caché KV global constante y un prellenado lineal, mientras que la recursión parcial mejora la profundidad de representación con una sobrecarga limitada. En conjunto, YOCO-U mejora la utilidad de los tokens y el comportamiento de escalado manteniendo una inferencia eficiente. Los resultados empíricos confirman que YOCO-U se mantiene altamente competitivo en benchmarks generales y de contexto largo, demostrando que la integración de arquitecturas de atención eficiente y computación recursiva es una dirección prometedora para los LLM escalables.

English

The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.

YOCO Universal para un Escalado Eficiente en Profundidad

Universal YOCO for Efficient Depth Scaling

Resumen

Support