YOCO Universale per un'Efficiente Scalabilità in Profondità

Abstract

L'ascesa dello scaling al momento del test ha notevolmente potenziato le capacità di ragionamento e agentive dei Large Language Model (LLM). Tuttavia, i Transformer standard faticano a scalare efficientemente la computazione in fase di inferenza, poiché le strategie di loop convenzionali soffrono di un elevato overhead computazionale e di una cache KV che si espande insieme alla profondità del modello. Presentiamo Universal YOCO (YOCO-U), che combina l'architettura decoder-decoder di YOCO con il calcolo ricorsivo per ottenere un effetto sinergico maggiore rispetto a ciascuno dei due approcci preso singolarmente. Basato sul framework YOCO, YOCO-U implementa un Self-Decoder Universale che esegue multiple iterazioni tramite la condivisione dei parametri, confinando il processo iterativo a strati shallow con attenzione efficiente. Questa combinazione produce un favorevole compromesso capacità-efficienza che né YOCO né la ricorsione raggiungono in modo indipendente. L'architettura YOCO fornisce una cache KV globale costante e un pre-riempimento lineare, mentre la ricorsione parziale aumenta la profondità rappresentativa con un overhead limitato. Insieme, YOCO-U migliora l'utilità dei token e il comportamento di scaling mantenendo un'inferenza efficiente. I risultati empirici confermano che YOCO-U rimane altamente competitivo nei benchmark generali e di contesto lungo, dimostrando che l'integrazione di architetture ad attenzione efficiente e calcolo ricorsivo è una direzione promettente per LLM scalabili.

English

The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.

YOCO Universale per un'Efficiente Scalabilità in Profondità

Universal YOCO for Efficient Depth Scaling

Abstract

Support